Невронна мрежа „чува” какво говорят хората „на себе си”

Невронните мрежи са способни да чуят дори „нечуваемата” реч на човека
(снимка: arxiv.org/University of California, Berkeley)

Американски учени разработиха система, която разпознава тихата реч и я превръща в звукова, използвайки невронна мрежа. В бъдеще системата може да се използва за създаване на слушалки, които позволяват на хората да говорят по телефона, без да издават никакви звуци.

Въпреки че, когато говорим на „себе си”, не изричаме думи на глас и не издаваме никакви звуци, мозъкът все пак принуждава мускулите на гласовия тракт да се движат, макар и много по-малко, отколкото при „нормална” реч – този процес се нарича субвокализация. Инженерите могат да разчитат мускулните контракции по различни начини – главно с помощта на електромиография (EMI), която записва електрическата активност на мускулите с помощта на електроди, поставени на врата и лицето.

Съществуващите интерфейси за разпознаване на субвокализации могат да преобразуват мълчалива реч само в текст, но учените от Калифорнийския университет в Бъркли са разработили алгоритъм, който е способен да „озвучава” мускулни контракции. Той е обучен на три вида данни – записи на звукова реч и мускулна активност по време на звукова и нечуваема реч.

Алгоритъмът отчита три сигнала – две електромиограми и звукова реч. На първия етап той намира оптимално съответствие между два сигнала – звукова и нечуваема реч, а на втория, използвайки получените данни, създава аудиозапис на реч от електромиограма, тоест нечуваема реч от аудиозапис на звукова реч. Такъв алгоритъм е необходим за обучение на невронна мрежа, която прави същото, като приема не три вида сигнали като вход, а само един – електромиограма на нечуваема реч.

Учените са използвали невронна мрежа с краткосрочна памет, като получените данни от нея са предавани на невронна мрежа WaveNet, която ги декодира в аудио запис на човешки глас. За обучение е използван 20 часа запис на звукова и нечуваема реч, представен под формата на три вида данни. След обучението разработчиците проверявали разбираемостта на генерираните записи.

Като метрика учените са използвали стандартната вероятност за грешка – сумата от променени, липсващи и допълнителни думи, разделена на общата дължина на текста. За прости фрази като дати и други числа вероятността за грешка на пълноценна невронна мрежа е 3,6, а за такава, която се обучава само в звукова реч, е 88,8. За сложни фрази като откъси от книги разликата не е толкова голяма: 74,8 до 95,1 при проверка от човек и 68 до 91,2 при проверка от системата за разпознаване на реч Mozilla DeepSpeech.

Коментари по темата: „Невронна мрежа „чува” какво говорят хората „на себе си””

добавете коментар...

  1. aa

    tova se znae otdavna i mnogo drugi neshta i tankosti ima

Коментар