Технологията на Microsoft за разпознаване на устна човешка реч вече се справя с тази задача по-добре от хората, съобщават от компанията. В процеса на транскрибиране на телефонен разговор системата дава 5,1% грешки – колкото екип от специално обучени хора и по-малко от обикновените хора, при които делът на грешките е 5,9%.
През септември 2016 г. системата на Microsoft допускаше 6,3% грешки, което по онова време беше световен рекорд за точност при машинно транскрибиране. Но през октомври компанията намали дела на грешките до 5,9% – точно толкова грешки допуска и средностатистическият човек.
Под дял на грешките се разбира процентът на думите, които се транскрибират неправилно по време на прослушване на телефонен разговор. За проверка на системата Microsoft прилага стандартен тест за правилно разпознаване на реч Switchboard, който се използва широко в тази сфера, вкл. от компании като IBM и Google.
В момента технологията на Microsoft може само да разпознава устна реч и да я представя коректно в писмена форма. Системата все още не е способна да разбере смисъла на думите. Освен това разпознаването е добро само при отчетлив разговор, на качествен запис. При наличие на странични шумове, процентът на грешките нараства.
Преди 20 години делът на неправилно разпознаваните от компютрите думи надвишаваше 43%. Компании от рода на Microsoft и IBM успяха да напреднат в тази сфера, благодарение на дълбоките невронни мрежи, чиято работа наподобява биологичните процеси в главния мозък на човека.
Невронните мрежи се считат за ключова технология не само в разпознаването на реч, но и в разработките на компютърно зрение. Тези мрежи се състоят от няколко слоя, а наскоро Microsoft създаде нов тип връзки между слоевете, благодарение на което спечели конкурса за компютърно зрение ImageNet 2016.
Критично важен компонент в системата за разпознаване на реч е инструментариумът за невронни мрежи Microsoft Cognitive Toolkit 2.1 (CNTK), който задейства дълбоки обучаващи алгоритми. За подобряване на акустичното моделиране също се използва специална невронна мрежа в комбинация с двупосочна краткотрайна памет.
Тласък на разработките даде и паралелната работа на графичните процесори (GPU). Първоначално те бяха създадени за компютърна графика, но в последните години се използват все по-често за обработка на сложни алгоритми, вкл. за разпознаване на реч. В частност, за по-бързо обучение на системата и тестване на нови идеи Microsoft използва облачни Azure GPU решения.
Твърдението на MS е, че техният алгоритъм прави по-малко грешки слушайки запис с много високо качество*, сравнено с броя грешки, които правят хората в телефонен разговор.
Аз ли нещо недовиждам?!?
Предполагам също, че алгоритмите им за разпознаване на образи разпознават далеч по-точно образи от снимка, сравнено с хора с късогледство и старческо перде?
Горките изследователи хвърлят толкова труд да развиват алгоритми и какво ли не, а разни магарета от маркетинг и продажби пишат едни безобразни глупости и помпозни малоумия, та ги злепоставят.
* От статията: “разпознаването е добро само при отчетлив разговор, на качествен запис.”
шопски и помашки.
А колко езика разпознава системата на Microsoft известно ли е?
анбалийвабал, исдислав?
Ако разпознаването на реч се справи с песента на фики – издислав, то ще ги призная! инак нье