
Малките AI модели вършат чудесна работа с по-тясно дефинирани задачи
(снимка: CC0 Public Domain)
В сферата на изкуствения интелект се наблюдава тенденция към използване на малки езикови модели (SLM), които са по-евтини и по-ефективни от големите езикови модели (LLM) при конкретни задачи, отбелязват пазарните анализатори. SLM имат по-малко параметри от LLM и са по-подходящи за изпълнение на тесен кръг от задачи.
Новите версии на LLM от OpenAI, Meta и DeepSeek имат стотици милиарди параметри, което ги прави по-добри – по-мощни и по-точни – в откриването на модели и връзки. Обучението и използването им обаче изисква огромни изчислителни и финансови ресурси.
Така например, обучението на модела Gemini 1.0 Ultra струва на Google 191 милиона долара. Според Института за изследване на електроенергията, изпълнението на една заявка за ChatGPT изисква около 10 пъти повече енергия от едно търсене в Google, отбелязва Wired.
IBM, Google, Microsoft и OpenAI наскоро пуснаха SLM само с няколко милиарда параметри. Те не могат да се използват като инструменти с общо предназначение като LLM, но вършат чудесна работа с по-тясно дефинирани задачи като обобщаване на разговори, отговаряне на въпроси на пациенти в ролята на здравен чатбот и събиране на данни на смарт устройства.
„Те също могат да работят на лаптоп или мобилен телефон, вместо в огромен център за данни”, казва Зико Колтер, компютърен учен в университета Карнеги Мелън.
За да обучат малки модели, изследователите използват няколко метода, като например дестилация на знания, при която LLM генерира висококачествен набор от данни чрез прехвърляне на знания към SLM – подобно на учител, който дава уроци на студент.
Освен това малките езикови модели могат да се създават от по-големите чрез „подрязване” – премахване на ненужни или неефективни части от невронната мрежа, което е практично решение и се прилага и в други области на технологиите, включително в проектирането и производството на чипове.
Тъй като SLM имат по-малко параметри от по-големите модели, техните разсъждения могат да бъдат по-прозрачни. Малък целеви модел ще се представи също толкова добре, колкото и голям при изпълнение на конкретни задачи, но ще бъде по-лесен за разработване и обучение.
„Тези ефективни модели могат да спестят пари, време и компютърни ресурси”, казва Лешем Чошен, изследовател в лабораторията за изкуствен интелект MIT-IBM Watson.