Как Fujitsu вдигна летвата при частните GPT

Изкуствен интелект, роботи и други напреднали технологии гастролираха на форум на Fugitsu в София, част от европейско роудшоу на компанията (снимка: Мария Малцева / TechNews.bg)

Fujitsu драстично вдигна нивото на предизвикателството при разработване на частни GPT решения, предлагайки иновативен модел, който избягва т.нар. „халюцинации“ и персонализира отговорите си в зависимост от това с кого „си говори“. Технологията извежда на ново ниво развитието на вътрешнофирмените езикови модели, като същевременно повишава и критериите за сигурност в организацията, стана ясно по време на Fujitsu Forum 2024 в София, част от едноименното европейско роудшоу на компанията.

Частните езикови модели представляват по-малък „брат“ на популярните езикови модели като ChatGPT, Gemini и Claude, които се внедряват инсталационно в дадена организация, за да обслужват нейните клиенти или да помагат на собствените й служители в ежедневната им работа с потребителите. Традиционно частният GPT се обучава върху собствени данни на самата компания-ползвател. Това може да са наръчници, продуктови описания, сервизни случаи (т. нар. „тикети“), история на компанията и др.

Едно от предимствата на подхода е създаването на „персонализиран“ GPT на фирмата. Той се „специализира“ в нейната сфера на дейност, собствените ѝ продукти и услуги, специфична терминология, номенклатури и др. Друг фактор е намаляването на риска от „изтичане“ на фирмена информация към глобалното информационно море.

Fujitsu е разработила собствена система за изграждане на частни GPT, твърде различна от всичко познато на пазара. Както и при други подобни предложения, системата се оформя като вътрешно-инсталационно решение в организацията (on-premise). Платформата обаче надскача традиционните слабости и ограничения на типичния „вътрешен“ езиков модел. Тя преодолява проблема с „халюцинациите“ и предпазва от кибератаки.

Сигурност от корпоративен клас

Преравяйки вътрешната документация на организацията, с която е захранен, този GPT формулира собствени отговори, изцяло „със свои думи“, без да следва схемите на статистически най-вероятната последователност от думи. В края на всеки свой отговор чатботът цитира своите източници: документи и онлайн ресурси.

Fujitsu GPT може да се свързва с Active Directory или LDAP услуга, използвана в организацията, и на тази база да „персонализира“ отговора си в зависимост от това кой е отправил запитването и какви права има той да узнае дадена информация. По този начин алгоритъмът „се съобразява“ със събеседника си. Всеки запитващ ще получи отговор, който не разкрива повече, отколкото е позволено да узнае според информационната политика на организацията.

Наред с тези постижения езиковият модел е изготвен така, че да може да разпознава фишинг-адреси и да ги елиминира в комуникацията си с човека. Това значително повишава нивото на сигурност и за организацията-потребител, и за нейните клиенти. Разпознаването на фишинг-адреси цели повишаване на надеждността на „разговорните“ AI модели.

Удо Вюрц, главен директор по данните във Fujitsu, представи разработка на компанията за изграждане на частни GPT, които избягват т.нар. “халюцинации”
(снимка: Мария Малцева / TechNews.bg)

Технологията е разработка на „лабораторията“ на Fujitsu в университета Бен Гурион в Израел. Системата разпоззнава URL адреси към фишинг-сайтове, които може да са „имплантирани“ разговорите с цел атака тип „отравяне на данните“ т.е. инжектиране на фалшива информация в основополагащия набор данни.

Без повече халюцинации

Едно от най-големите постижения на Fujitsu GPT е това, че преодолява проблема с т. нар. халюцинации. Става дума за феномена, при който езиковият модел отговоря с категоричен и уверен тон, поднасяйки напълно невярна информация.

„Избягването на халюцинациите е трудно. Обичайно генеративният AI се стреми на всяка цена да ви даде отговор“, каза Удо Вюрц, главен директор по данните във Fujitsu. „Ако ChatGPT ви даде правилен отговор на въпрос, но вие го контрирате, че твърдението му не е вярно, най-вероятно той ще ви се извини и занапред ще ви дава отговора, който вие му посочите за верен – дори да е грешен по своята същност”.

„Това, което ние правим, е да контролираме обема на токените, които създаваме при обучението на езиковия модел, и резултата, който получаваме. Така е, защото установихме, че в точно определен момент, когато е налице специфичен обем информация, осигурена от AI, отговорът се оказва халюцинация“, допълни Вюрц.

Този подход, според него, има и своята „обратна страна на монетата“. „Може да се окаже проблем, че някои отговори не са достатъчно дълги: не включват всичкото необходимо съдържание. Трябва да се балансира между това колко дълъг отговор следва да даде системата и какъв да е той, ако няма достатъчно информация“, обясни Вюрц.

„Ако няма достатъчно информация, нашият GPT не дава информация. Какво значи това? Ако зададете въпрос на бота, но данните са недостатъчни, то системата ще ви отвърне нещо като „Имам идея, но не разполагам с достатъчно информация, за да ви дам коректен отговор, затова моля да предоставите повече информация, върху която да се обуча“, раказа експертът по данни.

Рафиниране на данните през преобучаване

Важна специфика на Fujitsu GPT е и, че от неговия информационен „архив“ могат да се изтриват документи – източници на данните, на които чатботът базира отговорите си – без това да налага ново обучение и трениране на езиковия модел. От компанията са направили промяната така, че премахването на документ от „ума“ на езиковия модел да става с един клик.

За целта Fujitsu базира своя разговорен AI на векторна база данни. „Ако трябва да изтриете нещо, върху което GPT е обучен, вие първо ще видите списък с всички документи и други видове източници. Ще изберете ненужния и ще го изтриете. Тогава системата ще изтрие всички съответни редове във векторната база данни. Няма нужда от повторно трениране на алгоритъма. И всичко става за секунди,“ каза Удо Вюрц.

Освен да говори чрез текст, чатботът на Fujtitsu може да „гледа“ изображения и да разбира какво е изобразено на тях. Така той обогатява базата от източници, на които разчита. За организацията-потребител това означава, че тя може да обучава своя GPT със свои графики и да захранва неговата база данни със знание от сканирани изображения.

Тестването – в затворена среда

За организациите, които биха искали да изпробват възможностите на този нов GPT, Fujitsu е подготвила тестово съоръжение, конфигурирано за потребителите от региона на ЕС – предвид изискванията на европейските норми за неприкосновеност на данните. Локалните партньори на компанията предоставят достъп до системата, с желания брой потребители и самостоятелна „инстанция“.

Тя е само за вас. Можете да си „играете“ с нея, да качите документи, за питате и да изпробвате как ще отговаря, да триете“, обясни Вюрц. „Данните са изолирани от тези на другите потребители. Това не е облачно решение, подобно на ASW или Azure. То е изцяло затворена, изолирана среда само за нашите потребители“.

Мария Малцева

Мария Малцева

Коментар