Започнаха войните на AI моделите с отворен код

Много компании твърдят, че техните AI модели са с отворен код, но те не са такива
(снимка: CC0 Public Domain)

Становище на Инициативата за отворен код (OSI) и нейните съюзници се доближава до дефиницията на изкуствен интелект с отворен код. Ако всичко върви по план, Стефано Мафули, изпълнителният директор на OSI, ще обяви дефиницията на AI с отворен код на форума All Things Open в края на октомври. Но някои лидери от общността на отворения код не искат да имат нищо общо с тази инициатива.

Нека започнем с предистория. Много компании – като например Мета – твърдят, че техните AI модели са с отворен код. Но те не са. Дори не са близки до отворения код, коментира ситуацията Стивън Дж. Вон-Никълс, автор на The Register.

OSI и множество други компании и групи работят върху създаване на цялостна дефиниция на AI с отворен код. В края на краищата OSI е същата организация, която дефинира софтуера с отворен код с Open Source Definition.

В последния им проект, Open Source AI Definition – проект v. 0.0.9, обявен на KubeCon и Open Source Summit Asia в Хонконг, бяха направени значителни промени, които дразнят някои поддръжници на отворения код. Такива са:

Роля на данните за обучение: Данните за обучение са полезни, но не са задължителни за модифициране на AI системите, смята OSI. Това решение отразява сложността на споделянето на данни, включително правни проблеми и съображения за поверителност. Проектът категоризира данните за обучение на отворени, публични и неподлежащи на споделяне непублични данни, като за всяка категория има специфични насоки за подобряване на прозрачността и разбирането на пристрастията на AI системата.

Разделяне на контролния списък: Контролният списък за оценка на лиценза е отделен от основния дефиниционен документ, което го привежда в съответствие с рамката за отвореност на модела (MOF). Това разделение позволява фокусирана дискусия върху идентифицирането на AI с отворен код, като същевременно се поддържат общи принципи в дефиницията.

Според изпълнителният директор на Linux Foundation, Джим Землин, MOF “е начин да се помогне на оценката дали даден модел е отворен или не”. Той посочва три нива на отвореност:

„Най-високото ниво, първо ниво, е отворена научна дефиниция, където данните, всеки използван компонент и всички инструкции трябва да вървят заедно и да създават вашия AI модел по един и същ начин. Второ ниво е подмножество, където не всичко е отворено, но повечето данни са. След това, на трето ниво, имате области, в които данните може да не са налични, но данните, които описват наборите от данни, ще бъдат налични”.

Тара Таракийе, FOSS технолог в Sovereign Tech Fund, смята, че „система, която може да бъде изградена само върху собствени данни, може да бъде само патентована”. Според нея, това е очевидна аксиома. Новата дефиниция за AI с отворен код, по нейните думи, е като „зоопарк” – съдържа толкова много думи, които осигуряват задна врата с размер на хамбар за това, което по същество са патентовани AI системи, наричани ​​отворен код.

Лидерът на отворения код Джулия Ферайоли е съгласна с мнението на Тара: „Дефиницията на AI с отворен код в настоящия си проект размива самата дефиниция на това какво означава да бъдеш с отворен код. Абсолютно съм изумена, че повечето привърженици на отворения код не виждат този много реален, надвиснал риск”.

Преди още да се появи последният проект за дефиниция на AI с отворен код, главният технически стратег на отворения код в AWS Том Калауей каза: „Моето силно убеждение (и убеждението на много други в общността на отворения код) е, че текущата дефиниция на AI с отворен код не гарантира точно, че AI системите запазват неограничени права на потребителите да ги изпълняват, копират, разпространяват, изучават, променят и подобряват”.

След това, в по-скоро скръбно, отколкото гневно изявление, Калауей написа: „Дълбоко съм разочарован от решението на OSI да избере погрешна дефиниция. Надявах се, че те ще бъдат амбициозни. Вместо това получаваме същите извинения и същите компромиси, обвити във фасада на отворен процес”.

Крис Шорт от екипа на разработчиците на отворен код в AWS е съгласен с Калауей: “100 процента вярвам в душата си, че приемането на това определение не е в най-добрия интерес не само на OSI, но и на отворения код като цяло”.

Стив Поусти, консултант по застъпничество за разработчици, също коментира негативно проекта на OSI AI: „Тази дефиниция не дава свобода за модифициране и е неприемлива като дефиниция с отворен код”.

Дали идеалистичният подход към дефиницията на AI с отворен код ще работи, след като никой няма да може да отговори на тази сложна и противоречива дефиниция? Дебатът очевидно ще продължи с години. А истинският въпрос е дали това ще се превърне в безсмислен технически аргумент, докато AI върви по своя весел път, без да споменава „отворен код”, освен като маркетингов термин.

Коментари по темата: „Започнаха войните на AI моделите с отворен код”

добавете коментар...

  1. Българин

    Какво значи отворен код за големите езикови модели. Всяка дума или токен е един вектор със стотици стойности, които за да се определят са минали през някакъв transformer модел и fine tuning. Там реално е know-how-то за това как е обучен модела. Обаче дори някой да напише кода за този модел, реално едва ли някой ще си го обучи сам с цената на 1000 GPU-та за месец. Open source частта може да е това, което е като front end, но то само по себе си е доста просто като код (обикновено няколко стотин реда) и само описва как да се извличат данните.

Коментар