Малките езикови модели може да се окажат голяма сила

Компаниите предпочитат малки езикови модели (SLM) за захранване на конкретни бизнес-задачи (снимка: CC0 Public Domain)

Разходите за използване на големи езикови модели (LLM) от водещите облачни доставчици стимулират интереса към… малките езикови модели (SLM) за използване на генеративен AI в бизнеса. Оказва се, че предприятията не желаят да плащат за LLM, за да изпълняват прости бизнес-задачи с генеративен изкуствен интелект. Те търсят по-евтини малки езикови модели, сочи анализ на пазара.

Големите езикови модели, захранващи генеративните AI услуги на AWS, Google Cloud и Microsoft Azure, са способни на много процеси, вариращи от писане на програмен код и прогнозиране на 3D структурата на протеините до отговаряне на въпроси по почти всяка възможна тема. Мащабът на възможностите е вдъхновяващ. Но впрягането в работа на такива масивни AI модели със стотици милиарди параметри е скъпо. Предприятията се питат дали не е по-рентабилно обучението на малък езиков модел за захранване например на чатбот за обслужване на клиенти.

„Нашият любим клиентски отговор е, че интелигентността на LLM може да е страхотна, но дадената частна организация няма нужда нейната система за продажби да може да рецитира френска поезия“, каза Девврет Риши, главен изпълнителен директор на новостартиращата компания Predibase.

През последните няколко месеца и Gartner забелязва увеличаване на броя на корпоративните клиенти, които оценяват SLM, за да намалят разходите си. „Все по-често виждаме клиенти да идват при нас и да ни казват, че използват тези изключително мощни, големи модели и цената на услугата е твърде висока, а те се опитват да направят нещо много по-просто“, казва анализаторът на Gartner Арун Чандрасекаран.

Като алтернатива предприятията проучват езикови модели с 500 милиона до 20 милиарда параметъра, казва Чандрасекаран. „Това е по-привлекателно. Тези модели започват да набират популярност, главно на фона на ценовото им представяне.“

SLM за бизнеса

Малките езикови модели не могат да се мерят с обхвата на задачите на големите езикови модели. Въпреки това SLM, обучени върху данни за специфични задачи като генериране на съдържание от определена база данни, показват потенциал като значително по-евтина и същевременно стойностна алтернатива.

„Малките модели имат ограничен капацитет на модела. Но ако концентрираме капацитета им върху конкретна целева задача, моделът може да постигне прилична производителност“, според доклад на изследователи от Университета в Единбург в Обединеното кралство и Института за AI „Алън“ в Сиатъл.

През януари консултантската група Sourced Group ще помогне на няколко фирми – телекоми и организации от света на финансовите услуги – да се възползват от GenAI, използвайки SLM с отворен код, каза водещият консултант по AI Фаршад Годсиан. Първоначалните проекти включват използване на естествен език за извличане на информация от лични вътрешни документи.
Годсиан експериментира с FLAN-T5 – модел на естествен език с отворен код, разработен от Google и достъпен на Hugging Face, за да научи за SLM. Екипът тества версията на FLAN-T5 с 248 милиона параметъра.

„Когато добавите генериране на ресурсен документ, това ви дава много по-добри резултати, отколкото използването на LLM, и е много по-лесно за изпълнение“, каза той. „Можете дори да го стартирате на единичен компютър. Това е голяма полза“.

Потенциалът на SLM привлече и големи корпоративни доставчици като Microsoft. Миналия месец изследователите на компанията представиха Phi-2: SLM с 2,7 милиарда параметъра, който надмина версията с 13 милиарда параметри на Llama 2 на Meta, според Microsoft. Компанията пусна Phi само за изследване.

SLM: силни и слаби страни

Доставчиците на SLM с отворен код рекламират достъпа до моделите като решаваща корпоративна функция. Например, потребителите могат да получат достъп до параметрите, разкривайки как моделът изготвя своите отговори. Недостъпните параметри, използвани от големите езикови модели, безпокоят предприятия, които се страхуват от потенциални изкривявяния.

Друг критичен фактор е управлението на данните. Много организации се притесняват от изтичане на фирмени данни при фината настройка на облачен LLM. Те не биха искали тяхна чувствителна информация да се озове в морето от данни, „предъвквани“ от големите езикови модели.

Технологията с отворен код също има своите слабости. През юни компанията за сигурност на веригата за доставки Rezilion съобщи, че 50 от най-популярните GenAI проекти с отворен код в GitHub имат среден резултат за сигурност от 4,6 от 10. Слабостите, открити в технологията, могат да доведат до рискове, включително компрометиране на чувствителна информация или интелектуална собственост, пише Rezilion в блога си.

Обещаващите SLM, посочени от Чандрасекаран, включват Llama 2 на Meta, Falcon на Института за технологични иновации и Mistral AI Mistral 7B и Mixtral 8x7B.

„Започваме да виждаме все повече и повече от тези модели с отворен код да бъдат сертифицирани за търговска употреба, което е доста голямо постижение за много предприятия“, каза той. За доставчиците на модели с отворен код имат възможности през следващата година, когато предприятията преминат от етапа на обучение към действителното внедряване на GenAI.

„Те все още не са взели окончателно решение, но са готови да скочат веднага щом настъпи новата година“, казва Годсиан. „Имат нови бюджети и искат да започнат да прилагат или поне да проведат някои експерименти за доказване на концепцията“.

Коментар