След появата на софтуерни инструменти с AI, които могат да пишат текст, популяризирането на средствата за транскрибиране е добра новина за всички, които искат бързо да превърнат разговорите си в писмени документи. Но транскрибиращият AI също може да халюцинира. А някои от неговите потенциални потребители – медицинските заведения – са твърде чувствителни към подобни „редакции”.
Разработчикът OpenAI описа своя AI инструмент за транскрипция Whisper като притежаващ „точност на човешко ниво”. Но Whisper има голям недостатък: той е склонен да си измисля фрази и дори цели изречения, според интервюта с повече от дузина софтуерни инженери, разработчици и академични изследователи. Експертите казват, че някои от измислените текстове – известни в индустрията като халюцинации – могат да са откровено опасни.
Халюцинациите на инструменти като Whisper са риск, тъй като подобен софтуер навлиза в множество индустрии по света за превод и транскрибиране на интервюта, генериране на текст и създаване на субтитри за видеоклипове. По-притеснителен, според специалистите, е стремежът на медицинските центрове да въведат инструменти, базирани на Whisper, за да транскрибират консултациите на пациенти с лекари, въпреки предупрежденията на OpenAI, че инструментът не трябва да се използва в „области с висок риск”.
Проблем с широк обхват
Пълният обхват на проблема е труден за разбиране. Изследователи и инженери казват, че често се натъкват на халюцинациите на Whisper в работата си. Изследовател от Мичиганския университет, който провежда проучване на публични срещи, например, казва, че е открил халюцинации в 8 от всеки 10 аудио транскрипции, които е инспектирал, преди да започне да се опитва да подобри модела.
Инженер по машинно обучение пък посочва, че първоначално е открил халюцинации в около половината от над 100 часа транскрипции на Whisper, които е анализирал. Трети разработчик споделя, че е открил халюцинации в почти всеки един от 26 000 преписа, които е създал с Whisper.
Проблемите са налице дори при добре записани, качествени, кратки и ясни аудио записи. Скорошно проучване на компютърни учени разкри 187 халюцинации в над 13 000 ясни аудио-фрагмента.
Риск от тежки последици
Подобни грешки биха могли да имат „наистина тежки последици”, особено в болниците, казва Алондра Нелсън, доскоро ръководител на Службата за научна и технологична политика на Белия дом за администрацията на Байдън. “Никой не иска грешна диагноза”, казва Нелсън. Един от примерите за странна медицинска информация, измислена от софтуера, е за „хиперактивирани антибиотици” – фраза, появила се незнайно откъде при една от транскрипциите, направена от изследователите.
Whisper се използва и за създаване на надписи в помощ на глухи и хора с увреден слух. Това означава, че тези хора са изложени на особен риск при потенциално грешни транскрипции. Глухите нямат начин да проверят, за да идентифицират измислиците.
Както може да се очаква, експертите, забелязали халюцинациите, призоваха OpenAI да се справи с проблема. Говорител на фирмата каза, че компанията непрекъснато проучва как да намали халюцинациите и оценява констатациите на изследователите, добавяйки, че OpenAI интегрира обратната връзка в актуализациите на модела.
За обхвата на проблема може да се съди по популярността на софтуера. Инструментът е интегриран в някои версии на чатбота ChatGPT на OpenAI и е наличен като вградено предложение в платформите за облачни изчисления на Oracle и Microsoft, които обслужват хиляди компании по целия свят. Използва се и за транскрибиране и превод на текст на множество езици.
Само през последния месец една скорошна версия на Whisper беше изтеглена над 4,2 милиона пъти от AI платформата с отворен код HuggingFace. Санчит Ганди, инженер по машинно обучение там, казва, че Whisper е най-популярният модел за разпознаване на реч с отворен код и е вграден във всичко – от кол центрове до гласови асистенти.
Притеснително използване в медицината
Най-голямо притеснение буди използването на системата в света на медицината. Болници, медицински центрове и индивидуално практикуващи лекари търсят как да използват средства за преобразуване на реч в текст, за да превърнат казаното по време на преглед в опис на процедурата и предписване на лечение. Това би трябвало да намали нуждата лекарите да пишат продължително след всеки пациент.
От друга страна, за проверка на потенциалните грешки и за усъвършенстване на работата на инструмента е необходимо да се правят хиляди проверки, сверяващи казаното в записа с транскрибираното от софтуера. А това е предизвикателство поради поверителността, присъща на медицинската сфера.
Тъй като срещите на пациентите с техните лекари са обект на тайна, е трудно да се направи многостранна проверка. Пациентите не биха искали техните разговори с медиците, които по същество са много интимни, да бъдат прослушвани от кого ли не.
То такова нещо като изкуствен интелект няма. Това нещо не разбира какво пише, а генерира “следваща най-добра дума”, съчетано с ръчно обучение на база стотици хиляди примери, правено от евтина работна ръка.
По-опасни са халюцинациите на текбрората, че ИИ е златна кокошка и ще замени хората