Microsoft смалява AI до джобен размер

Вместо да навлиза колкото е възможно повече в обучението, фокусът на малкия AI модел на Microsoft е върху разсъжденията (снимка: CC0 Public Domain)

Microsoft твърди, че най-новото въплъщение на нейния лек AI модел Phi-3 Mini се съревновава с конкуренти като GPT-3.5, като същевременно е достатъчно малък, за да бъде инсталиран на телефон.

Phi-3 Mini е езиков модел с 3,8 милиарда параметъра, обучен на 3,3 трилиона токена. Това е повече от 2,7-те милиарда параметъра на Phi-2, които Microsoft представи през декември 2023 г.

Вместо да навлиза колкото е възможно повече в моделите на обучение, фокусът е върху разсъжденията, казват от Microsoft. „Като пример, резултатът от игра във Висшата лига в определен ден може да даде добри данни за обучение за гранични модели, но трябва да премахнем такава информация, за да оставим повече капацитет за „разсъждение” на моделите с мини размер”.

Целевият подход означава, че макар Phi-3 да няма цялата широта на познанията на своите конкуренти, той е поне толкова добър, ако не и по-добър, когато става въпрос за разсъждения, или поне така твърди Microsoft. В изследователска статия, на която се позовава The Register, компанията отбелязва, че това е позволило на нейния малък езиков модел „да достигне нивото на модели с много възможности като GPT-3.5 или Mixtral само с общо 3,8 млрд. параметри (докато Mixtral има общо 45 млрд. параметри)”.

Изследването също така отбелязва, че използваните данни за обучение се състоят от „силно филтрирани уеб данни от различни отворени интернет източници” и данни, генерирани от LLM. Източниците на данни, използвани за обучение на LLM, са обект на няколко съдебни дела.

Малкият размер на Phi-3 Mini означава, че този AI може да работи офлайн на смартфон. Според изследователите, моделът може да заема приблизително 1,8 GB памет и е тестван офлайн на iPhone 14 с чип A16 Bionic. Публикувани са екранни снимки как Phi-3 Mini пише стихотворение и предлага неща за правене в Хюстън.

Изследователите също така подчертават недостатъците, присъщи на фокусирането върху разсъжденията. „Моделът просто няма капацитета да съхранява твърде много „фактически знания”, нещо, което може да бъде смекчено до известна степен чрез разширяването му с търсачка. Това обаче би провалило възможността да го използвате офлайн.

Понастоящем езикът на Phi-3 Mini е ограничен предимно до английски и страда от проблемите, присъщи на повечето LLM – халюцинации, усилване на пристрастия и генериране на неподходящо съдържание могат да бъдат открити и в него. „Предстои значителна работа за пълно справяне с тези предизвикателства”, казват изследователите.

Екипът обяви и по-големи модели под формата на Phi-3 Small и Phi-3 Medium със съответно 7 и 14 милиарда параметри.

„Съобщението на Microsoft за модела Phi-3 представлява продължаваща тенденция в развитието на AI. Вместо да преследва все по-големи модели, Microsoft разработва инструменти с по-внимателно подбрани данни и специализирано обучение. Това позволява подобрена производителност и способности за мислене без огромните изчислителни разходи за модели с трилиони параметри”, коментира Виктор Ботев, технически директор и съосновател на Iris.ai.

„Microsoft мъдро гледа отвъд мисленето „по-голямото е по-добро”. За широко разпространените бизнес и потребителски AI приложения осъществимостта и спецификата са по-важни от масивния брой на параметрите. Модели като Phi-3 ясно демонстрират, че с правилните данни и подход за обучение, за напредналите AI възможности не се изисква изграждане на все по-големи модели – това е решаващ фактор за бизнеса, където съотношението цена/качество е критично”, допълва той.

още по темата

Коментар