Разпознаването на говор бележи значителен напредък

Въпреки че разпознаването на говор чрез компютри съществува от десетилетия, за повечето хора то си остава в сферата на научната фантастика. В реалния свят технологията за разпознаване на говор не получи такова широко разпространение, че да измести напълно клавиатурата. Но не е изключено това да се случи много по-скоро, отколкото си мислите.

През последните пет години бяха направени големи крачки в развитието и приложението на технологията за разпознаване на говор. Софтуерни разработчици гледат все по-често към приложения, свързани със здравеопазване, бизнес, сигурност и развлечения. Разпознаването на говор вече прави значителен напредък в места като съдебната система, където подобренията в технологията доведоха до по-точни стенограми на съдебни заседания. 

Напредък бележи и анализът на говор, който може да отрази емоция и изговаряне. Създадени са програми, които да анализират интонацията на гласа на кандидати за работа на базата на това какво говорят, а не какво пишат. 

В центровете за връзка с клиенти (call centres) технологията е още по-напреднала – до степен да наподобява говора на истинския човек. Това ще позволи на една автоматизирана система с предварително записани отговори да промени сценария, ако долови, че клиентът, който се обажда, не е доволен, че разговаря с машина.  

Пазарът се е променил от времето, когато светът на разпознаване на говора се доминираше от Dragon Systems. Компаниите направиха своите продукти според специфичните потребности на различните индустрии. IBM, например, е разработила софтуера ViaVoice, който елиминира необходимостта хората да запаметяват специфични компютърни команди. Най-опростената версия на този софтуер, Personal Edition, се отличава с лесни настройки и текстов редактор, наречен SpeakPad. Технологията ViaVoice обаче има много по-мощен вариант в продукта Pro USB Edition, който идва с комплект шумозаглушители и качествен микрофон.

Dragon Systems, пионерът в разпознаването на говор, все още е основен играч на пазара, въпреки суматохата, създадена от поглъщания и сливания, която се отрази върху компанията в славните дни на дот.ком. Нейният продукт NaturallySpeaking 8 има 99% ниво на преобразуване на говор в текст и честго изпълнява задачите само с една дума. NaturallySpeaking може да работи на няколко устройства, включително моделите Pocket PC и Tablet PC.

Според експертите, най-пълноценно от предимствата на технологията могат да се възползват потребителите на мобилни устройства от рода на персонални цифрови помощници (PDA) и умни телефони. Те са изключително привлекателен пазар за производителите на продукти за разпознаване на говор, тъй като вече ползват устройства за диктуване или за обаждане по мобилни телефони. Много от компаниите производители на PDA и смартфони въвеждат допълнителни функции, които ще им спестят неудобството от писане чрез миниатюрни клавиатури.

Ionoveo е основен играч в тази област със своя софтуер за сигурно разпознаване на говор VeoLock 2.0, предназначен за устройства Pocket PC. Приложението е алтернатива на биометриката на базата на пръстови отпечатъци, която, според Ioneveo,е твърде тромава. По-бързо и по-ефикасно е просто да се продиктуват данните за самоличност, вместо да се работи с четец на пръстови отпечатъци.

Разпознаването на емоция е друго голямо направление, коета заслужава повече внимание. Британският сайт за Интернет запознанства DatingDonut.com, например, предлага инструмента “любовен детектор”, който използва програма, разработена от израелската служба за сигурност и наречена “анализ на слоевете на гласа”. Тя може да открие 129 различни емоционални нюанса в човешкия глас.

Разпознаване на говор
Приложения
в здравеопазването, сигурността, развлекателната индустрия, съдебната система, центровете за обслужване на клиенти, подбора на персонал и др.
Основни играчи
Dragon Systems, IBM, Ionoveo и др.
Тенденция
навлиза технология, който анализира говора и разпознава емоцията

Една нова ниша за разпознаването на говор са центровете за връзка с клиентите по телефона, известни като интерактивен “телефонен секретар” – interactive voice response (IVR). Теса познати на всеки, на когото се е налагало да се обажда на автоматизирана система за връзка с клиенти, да изслушва търпеливо записаните предварително инструкции на оператора и да си служи само с бутоните за телефона, за да получи интересуващата го информация. В по-голямата си част тези системи разчитат на разпознаване на ключова дума, вместо на една по-нова технология, наречена обработка на естествен глас, която се опитва да интерпретира цели изречения и да взема предвид контекста. Но по-новите системи са по-интелигентни. Комбинацията от по-добра точност и обработка на естествения глас прави възможно създаването на приложения, които могат да търсят надълбоко в други база данни и да извличат информация по-бързо, отколкото човека.

Автоматизираните системи IVR се използват и в други области,като например интервюиране на кандидати за работа. Вместо да следват серия от предварително подготвени въпроси, кандидатите минават през един изчерпателен интерактивен разговор, който се доближава до истинския човешки диалог. Тъй като системата притежава изкуствен интелект, тя може да променя посоката на интервюто в зависимост от отговорите на кандидатите за работа.

Като цяло, въпреки ограниченията, много от компаниите, които разработват продукти за разпознаване на говор, са нетърпеливи да видят какво ще им донесе следващото десетилетие, или дори следващите няколко години. Компютрите стават по-умни и това е добре за технологията за разпознаване на говор, но по-добрата новина е, че хората стават по-обучени. Те придобиват по-голям опит с новите технологии и това е чудесно, защото знаят как да ги използват.

Коментар