
Учените отдавна се опитват да създадат агенти с изкуствен интелект, които се самоусъвършенстват (снимка: CC0 Public Domain)
Може ли един алгоритъм да пише перфектен програмен код? Изглежда, че изкуственият интелект ще направи следващата решителна стъпка в развитието си. Нов алгоритъм на Дарвин-Гьодел позволява на кодиращите AI агенти да се самоусъвършенстват.
Учените отдавна се надяват да затворят напълно цикъла, като създадат агенти с изкуствен интелект, които рекурсивно се самоусъвършенстват. Ново изследване, за което съобщава изданието Spectrum на IEEE, демонстрира впечатляващ пример за такава система.
„Мисля, че за много хора резултатите са изненадващи. Тъй като работя по тази тема от почти 40 години, за мен това е може би по-малко изненадващо”, коментира постижението Юрген Шмидхубер, компютърен учен в Университета за наука и технологии „Крал Абдула” (KAUST) в Саудитска Арабия.
През 2003 г. Шмидхубер създава програми за решаване на проблеми, които биха пренаписали собствения си код, само ако могат официално да докажат, че актуализациите са полезни. Той ги нарича машини на Гьодел, на името на Курт Гьодел, математик, който е работил върху самореферентни системи. Но за сложни агенти доказуемата полезност не е лесна за постигане.
Новите AI системи, описани в неотдавнашното изследване на учени от Университета на Британска Колумбия, се основават на емпирични доказателства. В знак на почит към Шмидхубер, те се наричат Дарвин-Гьодел машини (DGM).
DGM започва с кодиращ агент, който може да чете, пише и изпълнява код, използвайки LLM (голям езиков модел). След това системата прилага еволюционен алгоритъм, за да създаде много нови агенти.
При всяка итерация DGM избира един агент от популацията и инструктира LLM да създаде една промяна, за да подобри способността на агента да пише код. LLM има нещо като интуиция за това какво ще помогне, защото е обучен върху големи обеми код, написан от хора. Резултатът е насочена еволюция, нещо средно между случайна мутация и доказуемо полезно подобрение.
След това DGM тества новия агент върху бенчмарк код, оценявайки способността му да решава програмни проблеми. Някои еволюционни алгоритми запазват само най-добре представящите се в популацията агенти, приемайки, че прогресът се движи безкрайно напред. DGM обаче запазва всички агенти, в случай че иновация, която първоначално се е провалила, може да се окаже ключът към пробив по-късно, след допълнително усъвършенстване.
Това е форма на „отворено изследване”, която оставя отворени пътища за напредък (DGM все още дава приоритет на агенти с по-високи резултати при избора на предци). Учените пуснали DGM на 80 итерации, използвайки бенчмарк кода SWE-bench, и на 80 итерации с бенчмарка Polyglot. Резултатите на агентите се подобрили от 20% на 50% в SWE-bench и от 14% на 31% в Polyglot.
„Бяхме наистина изненадани, че агентът може сам да напише такъв сложен код”, казва Джени Джанг, компютърен учен в Университета на Британска Колумбия и водещ автор на статията. „Той можеше да редактира множество файлове, да създава нови файлове и наистина сложни системи”.
Най-важното е, че DGM превъзхождаха алтернативен метод, който използва външна система за подобряване на агентите. С прилагане на DGM, подобренията на агентите се натрупват, докато те се усъвършенстват. DGM също така превъзхождаха версия, която не поддържа популация от агенти, а просто модифицира най-новия агент.
Все пак, най-добрият SWE-bench агент не е толкова добър, колкото най-добрия агент, проектиран от човек, но е генериран автоматично и с достатъчно време и изчислителна мощност би могъл да надмине човешкия опит.
Агентите могат да станат неразбираеми или да спрат да следват човешки инструкции. Затова Джанг и нейните колеги добавят предпазни мерки. Те държат DGM-ите в “пясъчник” без достъп до интернет или операционна система и регистрират и одитират всички промени в кода.
В бъдещите си изследвания учените планират да възнаграждават агентите за това, че са по-разбираеми и последователни, което ще стимулира още повече тяхното самоусъвършенстване.