Разработчиците преминават към компактни AI модели

Малките AI модели работят ефективно в специализирани области на по-ниска цена
(снимка: CC0 Public Domain)

Технологичните гиганти и стартиращите компании преминават към по-малки, по-ефективни AI модели, тъй като се стремят да намалят разходите и да подобрят производителността. Тези модели, за разлика от техните „големи братя” като GPT-4, могат да бъдат обучени на по-малко количество данни и да се специализират в решаването на специфични проблеми.

Microsoft, Google, Apple и стартиращи AI компании като Mistral, Anthropic и Cohere все повече се обръщат към малки и средни по размер езикови модели с изкуствен интелект. За разлика от широкомащабните модели (LLM) като GPT-4 на OpenAI, които използват над един трилион параметри и струват над 100 милиона долара за разработване, компактните модели се обучават на по-тесни набори от данни и могат да струват под 10 милиона долара, използвайки по-малко от 10 милиарда параметри, отбелязва Уолстрийт Джърнъл.

Microsoft, един от лидерите в областта на AI, представи семейство малки модели Phi. Според изпълнителния директор на компанията Сатя Надела, тези модели са 100 пъти по-малки от безплатната версия на ChatGPT, но в същото време се справят с много задачи почти толкова ефективно. Компанията бързо осъзнава, че работата с големи AI модели е по-скъпа, отколкото първоначално се смяташе, което я принуди да търси по-рентабилни решения.

Други технологични гиганти също се движат в тази посока. Google, Apple, както и Mistral, Anthropic и Cohere пуснаха свои собствени версии на малки и средни AI модели. Apple, в частност, планира да използва такива модели за стартиране на AI локално, директно на смартфона, което трябва да подобри скоростта и сигурността. В същото време консумацията на ресурси на смартфона ще бъде минимална.

Според експертите, за много задачи, като обобщаване на документи или създаване на изображения, големите модели може да са излишни. Иля Полосухин, един от авторите на фундаменталната статия на Google от 2017 г. за изкуствения интелект, образно сравни използването на големи модели за прости задачи с карането на танк до магазина за хранителни стоки. „Изчисляването на 2+2 не трябва да изисква квадрилиони операции”, подчерта той.

Компаниите и потребителите също търсят начини за намаляване на разходите за работа с генеративни AI технологии. Според Йоав Шохам, съосновател на базираната в Тел Авив компания за изкуствен интелект AI21 Labs, малките модели могат да отговорят на въпроси само за една шеста от цената на големите езикови модели.

Ключово предимство на малките модели е възможността за фина настройка за конкретни задачи и набори от данни. Това им позволява да работят ефективно в специализирани области на по-ниска цена.

Компаниите обаче няма да се откажат напълно от LLM. Например, Apple обяви интегриране на ChatGPT в Siri за изпълнение на сложни задачи, а Microsoft планира да използва най-новия модел на OpenAI в Windows.

А компании като Experian в Ирландия и Salesforce в САЩ вече преминаха към по-малки AI модели за чатботове и установиха, че те осигуряват същата производителност като по-големите модели, но при значително по-ниски разходи и с по-ниска латентност на обработката.

Преминаването към малки модели се случва, тъй като прогресът на големите, публично достъпни AI модели се забавя. Експертите обясняват това с липсата на висококачествени нови данни за обучение и говорят за нов и важен етап в развитието на индустрията.

Коментар