Microsoft вече разпознава реч по-добре от човек

от TechNews.bg23/08/201723/08/2017

Докато преди 20 години делът на неправилно разпознаваните от компютрите думи надвишаваше 43%, сега този показател е сведен до 5,1%

Технологията на Microsoft за разпознаване на устна човешка реч вече се справя с тази задача по-добре от хората, съобщават от компанията. В процеса на транскрибиране на телефонен разговор системата дава 5,1% грешки – колкото екип от специално обучени хора и по-малко от обикновените хора, при които делът на грешките е 5,9%.

През септември 2016 г. системата на Microsoft допускаше 6,3% грешки, което по онова време беше световен рекорд за точност при машинно транскрибиране. Но през октомври компанията намали дела на грешките до 5,9% – точно толкова грешки допуска и средностатистическият човек.

Под дял на грешките се разбира процентът на думите, които се транскрибират неправилно по време на прослушване на телефонен разговор. За проверка на системата Microsoft прилага стандартен тест за правилно разпознаване на реч Switchboard, който се използва широко в тази сфера, вкл. от компании като IBM и Google.

В момента технологията на Microsoft може само да разпознава устна реч и да я представя коректно в писмена форма. Системата все още не е способна да разбере смисъла на думите. Освен това разпознаването е добро само при отчетлив разговор, на качествен запис. При наличие на странични шумове, процентът на грешките нараства.

[related-posts]

Преди 20 години делът на неправилно разпознаваните от компютрите думи надвишаваше 43%. Компании от рода на Microsoft и IBM успяха да напреднат в тази сфера, благодарение на дълбоките невронни мрежи, чиято работа наподобява биологичните процеси в главния мозък на човека.

Невронните мрежи се считат за ключова технология не само в разпознаването на реч, но и в разработките на компютърно зрение. Тези мрежи се състоят от няколко слоя, а наскоро Microsoft създаде нов тип връзки между слоевете, благодарение на което спечели конкурса за компютърно зрение ImageNet 2016.

Критично важен компонент в системата за разпознаване на реч е инструментариумът за невронни мрежи Microsoft Cognitive Toolkit 2.1 (CNTK), който задейства дълбоки обучаващи алгоритми. За подобряване на акустичното моделиране също се използва специална невронна мрежа в комбинация с двупосочна краткотрайна памет.

Тласък на разработките даде и паралелната работа на графичните процесори (GPU). Първоначално те бяха създадени за компютърна графика, но в последните години се използват все по-често за обработка на сложни алгоритми, вкл. за разпознаване на реч. В частност, за по-бързо обучение на системата и тестване на нови идеи Microsoft използва облачни Azure GPU решения.

предишна статия

Huawei готви чип с изкуствен интелект за IFA 2017

следваща статия

Външен WD My Book Duo достига 20 терабайта

TechNews.bg

TechNews.bg е динамичен информационен ресурс за новини, анализи, пазарни данни, диалог и съвети за технологиите и тяхното приложение в бизнеса и личното пространство.

4 коментара

Anonymous 24/08/2017 at 08:58

Твърдението на MS е, че техният алгоритъм прави по-малко грешки слушайки запис с много високо качество*, сравнено с броя грешки, които правят хората в телефонен разговор.

Аз ли нещо недовиждам?!?

Предполагам също, че алгоритмите им за разпознаване на образи разпознават далеч по-точно образи от снимка, сравнено с хора с късогледство и старческо перде?

Горките изследователи хвърлят толкова труд да развиват алгоритми и какво ли не, а разни магарета от маркетинг и продажби пишат едни безобразни глупости и помпозни малоумия, та ги злепоставят.

* От статията: “разпознаването е добро само при отчетлив разговор, на качествен запис.”

Отговор

Anonymous 24/08/2017 at 08:53

шопски и помашки.

Отговор

V.Hristova 23/08/2017 at 16:20

А колко езика разпознава системата на Microsoft известно ли е?

Отговор

кисело зеле 23/08/2017 at 13:34

анбалийвабал, исдислав?

Ако разпознаването на реч се справи с песента на фики – издислав, то ще ги призная! инак нье

Отговор

Microsoft вече разпознава реч по-добре от човек

TechNews.bg

4 коментара

Коментари

AI агентите могат да превърнат задачите в дигитално бедствие

CAPTCHA проверките преминават към цялостен поведенчески анализ

Работа на 5 места дистанционно: ИТ спец печели близо милион долара годишно

Прогноза: AI балонът няма да се спука, но ще „спихне“

InfoSec SEE 2026: Предизвикателства към сигурността в ерата на AI

Киберзащита 2026: трябва да сме като Кевин от „Сам вкъщи“

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Японски учени предадоха данни безжично със скорост 112 Gbps

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното...

Високоскоростен интернет ще свърже близо 500 000 души в отдалечени и слабонаселени...

Роботизирани вълци защитават японците от мечки

Разпространяват измамни имейли и SMS-и от името на МТС

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Защо Тайван е в центъра на напрежението между Китай и САЩ

Повечето Android смартфони няма да се справят с Gemini AI – трябва...

Mythos превъзхожда конкурентите в търсенето на уязвимости, но има слабости

Е-суверенитетът повишава възвръщаемостта от корпоративния AI

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Повечето Android смартфони няма да се справят с Gemini AI – трябва им повече памет

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното ежедневие

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

Huawei добавя още един цвят в отворените слушалки FreeClip 2

Идва нова вълна в лаптопите: Googlebook с Android

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

4 коментара

Коментари