Разработчиците на софтуер могат да спят спокойно. „Първият AI програмист”, както беше позиционирана услугата с изкуствен интелект Devin, се оказа на практика безполезен инструмент, който може да се справи само с 15% от възложените му задачи.
Вече е ясно, че Devin не може да замени истински разработчик. Грандиозният проект решава само малка част от поставените пред него задачи. Успеваемостта е 15% – това е изключително нисък процент, особено като се има предвид, че Devin стартира сравнително отдавна.
Човешкият ум е по-добър от виртуалния
Devin, дошъл с претенцията, че е първият в света AI софтуерен инженер, се оказа изключително лош разработчик. Тестовете показват, че изкуственият интелект не успява да се справи с работата – изпълнява нищожните 15% от поставените пред него задачи, отбелязва The Register в публикация за проекта.
Компанията Cognition AI представи Devin през март 2024 г. До декември разработчикът проведе своеобразно затворено бета тестване, по време на което „AI програмистът” беше усъвършенстван и в края на годината Devin стана публично достъпен.
Но само тези, които имаха свободни $500, могат да го използват. Това е цената на месечен абонамент за услугата.
Твърде много обещания
В официалната документация на Devin, изготвена от Cognition AI, се казва: „Devin е автономен AI софтуерен инженер, който може да пише, изпълнява и тества код, помагайки на софтуерните инженери да работят върху лични задачи или екипни проекти”.
Според разработчиците, Devin е в състояние самостоятелно да „преглежда заявки за промени, да поддържа миграция на код, да отговаря на проблеми при повикване, да създава уеб приложения и дори да изпълнява задачи на личен асистент, като например да поръча обяд от DoorDash”, уверяват авторите на проекта.
Услугата използва корпоративния месинджър Slack като основен интерфейс за взаимодействие с потребителя, както и Docker контейнер (софтуерна платформа за разработване, доставяне и изпълнение на контейнерни приложения), който съдържа терминал, браузър, редактор на код и планировчик.
Devin поддържа API интеграция с външни услуги. Това му позволява, например, да изпраща имейли от името на потребител чрез транзакционната и маркетингова имейл услуга SendGrid.
Сложна система
Devin е „сложна AI система”. В работата си тази услуга разчита на няколко обучени модела с изкуствен интелект наведнъж, включително GPT-4o от OpenAI. С други думи, той е свободен от недостатъците на един конкретен AI модел и може да вземе най-доброто от различни модели.
На теория Devin може да се използва за решаване на голямо разнообразие от задачи, включително миграция на код. И като се има предвид, че е подкрепен от напреднали невронни мрежи със заслужена репутация, може да се очаква, че Devin лесно ще се справи с използването им. Но в действителност това не се случва.
Истинските разработчици на софтуер са намерили много недостатъци в Devin. По-рано Cognition AI публикува промоционален видеоклип, показващ как AI програмистът автономно завършва проекти на платформата за фрийлансъри Upwork. Софтуерният разработчик Карл Браун анализира видеото и напълно го развенча.
Друг експерт по програмиране и YouTube блогър на непълен работен ден също критикува Devin. Според него, този AI инструмент съдържа критични проблеми със сигурността.
Разочароващ резултат
По-късно трима учени по данни, свързани с лабораторията за изследване и развитие на изкуствения интелект Answer.AI, тестваха Devin и установиха, че е изпълнил успешно само 3 от 20 задачи. Те проведоха тестовете си през януари 2025 г., тоест почти година след официалната премиера на Devin.
Тестването е извършено от Хамел Хюсейн, Айзък Флат и Джоно Уитакър. Според техния доклад, Devin се е справил доста добре първоначално – например, успешно е мигрирал данни от база данни на Notion към Google Sheets. AI програмистът също е успял да създаде тракер на планети, за да провери твърденията за историческите позиции на Юпитер и Сатурн.
Въпреки това, докато тестовете продължават, тримата изследователи се натъкват на проблеми. „Задачи, които изглеждаха прости, често отнемаха дни, а не часове, и Devin забиваше в технически задънени улици или произвеждаше прекалено сложни, неизползваеми решения”, обясняват изследователите в своя доклад.
„Още по-тревожна беше склонността на Devin да върви напред с проблеми, които всъщност бяха невъзможни за разрешаване”, допълват специалистите.
Като пример те цитират случай, при който Devin е помолен да разположи множество приложения на платформата за разгръщане на инфраструктура Railway, но не разбрал, че това е невъзможно и прекарал повече от ден, опитвайки подходи, които не работят, и измисляйки несъществуващи функции.
От 20-те задачи, възложени на Devin, виртуалният програмист изпълнил задоволително само три – двете изброени по-горе и задачата за създаване на бот за месинджъра Discord на езика за програмиране Python. В три други задачи Devin дава несигурни резултати, а 14 проекта са пълен провал.
Изследователите казват, че Devin има изчистен потребителски интерфейс, който е впечатляващ, когато самата услуга работи правилно. „Но това е проблемът – случвало се е рядко [да работи правилно]”, подчертават те.
„Най-притеснителното беше неспособността ни да предвидим кои задачи ще бъдат успешни. Дори задачи, подобни на ранните ни успехи, се провалиха по сложни и отнемащи време начини. Автономната му същност, която изглеждаше обещаваща, се превърна в пасив – Devin прекара дни в опити да намери невъзможни решения, вместо да разпознае фундаменталните пречки”, заключават експертите.