Първият „AI програмист” се оказа безполезен

Човешкият ум засега печели битката с изкуствения интелект в програмирането
(снимка: CC0 Public Domain)

Разработчиците на софтуер могат да спят спокойно. „Първият AI програмист”, както беше позиционирана услугата с изкуствен интелект Devin, се оказа на практика безполезен инструмент, който може да се справи само с 15% от възложените му задачи.

Вече е ясно, че Devin не може да замени истински разработчик. Грандиозният проект решава само малка част от поставените пред него задачи. Успеваемостта е 15% – това е изключително нисък процент, особено като се има предвид, че Devin стартира сравнително отдавна.

Човешкият ум е по-добър от виртуалния

Devin, дошъл с претенцията, че е първият в света AI софтуерен инженер, се оказа изключително лош разработчик. Тестовете показват, че изкуственият интелект не успява да се справи с работата – изпълнява нищожните 15% от поставените пред него задачи, отбелязва The Register в публикация за проекта.

Компанията Cognition AI представи Devin през март 2024 г. До декември разработчикът проведе своеобразно затворено бета тестване, по време на което „AI програмистът” беше усъвършенстван и в края на годината Devin стана публично достъпен.

Но само тези, които имаха свободни $500, могат да го използват. Това е цената на месечен абонамент за услугата.

Твърде много обещания

В официалната документация на Devin, изготвена от Cognition AI, се казва: „Devin е автономен AI софтуерен инженер, който може да пише, изпълнява и тества код, помагайки на софтуерните инженери да работят върху лични задачи или екипни проекти”.

Според разработчиците, Devin е в състояние самостоятелно да „преглежда заявки за промени, да поддържа миграция на код, да отговаря на проблеми при повикване, да създава уеб приложения и дори да изпълнява задачи на личен асистент, като например да поръча обяд от DoorDash”, уверяват авторите на проекта.

Услугата използва корпоративния месинджър Slack като основен интерфейс за взаимодействие с потребителя, както и Docker контейнер (софтуерна платформа за разработване, доставяне и изпълнение на контейнерни приложения), който съдържа терминал, браузър, редактор на код и планировчик.

Devin поддържа API интеграция с външни услуги. Това му позволява, например, да изпраща имейли от името на потребител чрез транзакционната и маркетингова имейл услуга SendGrid.

Сложна система

Devin е „сложна AI система”. В работата си тази услуга разчита на няколко обучени модела с изкуствен интелект наведнъж, включително GPT-4o от OpenAI. С други думи, той е свободен от недостатъците на един конкретен AI модел и може да вземе най-доброто от различни модели.

На теория Devin може да се използва за решаване на голямо разнообразие от задачи, включително миграция на код. И като се има предвид, че е подкрепен от напреднали невронни мрежи със заслужена репутация, може да се очаква, че Devin лесно ще се справи с използването им. Но в действителност това не се случва.

Истинските разработчици на софтуер са намерили много недостатъци в Devin. По-рано Cognition AI публикува промоционален видеоклип, показващ как AI програмистът автономно завършва проекти на платформата за фрийлансъри Upwork. Софтуерният разработчик Карл Браун анализира видеото и напълно го развенча.

Друг експерт по програмиране и YouTube блогър на непълен работен ден също критикува Devin. Според него, този AI инструмент съдържа критични проблеми със сигурността.

Разочароващ резултат

По-късно трима учени по данни, свързани с лабораторията за изследване и развитие на изкуствения интелект Answer.AI, тестваха Devin и установиха, че е изпълнил успешно само 3 от 20 задачи. Те проведоха тестовете си през януари 2025 г., тоест почти година след официалната премиера на Devin.

Тестването е извършено от Хамел Хюсейн, Айзък Флат и Джоно Уитакър. Според техния доклад, Devin се е справил доста добре първоначално – например, успешно е мигрирал данни от база данни на Notion към Google Sheets. AI програмистът също е успял да създаде тракер на планети, за да провери твърденията за историческите позиции на Юпитер и Сатурн.

Въпреки това, докато тестовете продължават, тримата изследователи се натъкват на проблеми. „Задачи, които изглеждаха прости, често отнемаха дни, а не часове, и Devin забиваше в технически задънени улици или произвеждаше прекалено сложни, неизползваеми решения”, обясняват изследователите в своя доклад.

„Още по-тревожна беше склонността на Devin да върви напред с проблеми, които всъщност бяха невъзможни за разрешаване”, допълват специалистите.

Като пример те цитират случай, при който Devin е помолен да разположи множество приложения на платформата за разгръщане на инфраструктура Railway, но не разбрал, че това е невъзможно и прекарал повече от ден, опитвайки подходи, които не работят, и измисляйки несъществуващи функции.

От 20-те задачи, възложени на Devin, виртуалният програмист изпълнил задоволително само три – двете изброени по-горе и задачата за създаване на бот за месинджъра Discord на езика за програмиране Python. В три други задачи Devin дава несигурни резултати, а 14 проекта са пълен провал.

Изследователите казват, че Devin има изчистен потребителски интерфейс, който е впечатляващ, когато самата услуга работи правилно. „Но това е проблемът – случвало се е рядко [да работи правилно]”, подчертават те.

„Най-притеснителното беше неспособността ни да предвидим кои задачи ще бъдат успешни. Дори задачи, подобни на ранните ни успехи, се провалиха по сложни и отнемащи време начини. Автономната му същност, която изглеждаше обещаваща, се превърна в пасив – Devin прекара дни в опити да намери невъзможни решения, вместо да разпознае фундаменталните пречки”, заключават експертите.

Коментар