TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовиниТоп новини

Първият „AI програмист” се оказа безполезен

Човешкият ум засега печели битката с изкуствения интелект в програмирането
(снимка: CC0 Public Domain)

Разработчиците на софтуер могат да спят спокойно. „Първият AI програмист”, както беше позиционирана услугата с изкуствен интелект Devin, се оказа на практика безполезен инструмент, който може да се справи само с 15% от възложените му задачи.

Вече е ясно, че Devin не може да замени истински разработчик. Грандиозният проект решава само малка част от поставените пред него задачи. Успеваемостта е 15% – това е изключително нисък процент, особено като се има предвид, че Devin стартира сравнително отдавна.

Човешкият ум е по-добър от виртуалния

Devin, дошъл с претенцията, че е първият в света AI софтуерен инженер, се оказа изключително лош разработчик. Тестовете показват, че изкуственият интелект не успява да се справи с работата – изпълнява нищожните 15% от поставените пред него задачи, отбелязва The Register в публикация за проекта.

Компанията Cognition AI представи Devin през март 2024 г. До декември разработчикът проведе своеобразно затворено бета тестване, по време на което „AI програмистът” беше усъвършенстван и в края на годината Devin стана публично достъпен.


Но само тези, които имаха свободни $500, могат да го използват. Това е цената на месечен абонамент за услугата.

Твърде много обещания

В официалната документация на Devin, изготвена от Cognition AI, се казва: „Devin е автономен AI софтуерен инженер, който може да пише, изпълнява и тества код, помагайки на софтуерните инженери да работят върху лични задачи или екипни проекти”.

Според разработчиците, Devin е в състояние самостоятелно да „преглежда заявки за промени, да поддържа миграция на код, да отговаря на проблеми при повикване, да създава уеб приложения и дори да изпълнява задачи на личен асистент, като например да поръча обяд от DoorDash”, уверяват авторите на проекта.

Услугата използва корпоративния месинджър Slack като основен интерфейс за взаимодействие с потребителя, както и Docker контейнер (софтуерна платформа за разработване, доставяне и изпълнение на контейнерни приложения), който съдържа терминал, браузър, редактор на код и планировчик.

Devin поддържа API интеграция с външни услуги. Това му позволява, например, да изпраща имейли от името на потребител чрез транзакционната и маркетингова имейл услуга SendGrid.

Сложна система

Devin е „сложна AI система”. В работата си тази услуга разчита на няколко обучени модела с изкуствен интелект наведнъж, включително GPT-4o от OpenAI. С други думи, той е свободен от недостатъците на един конкретен AI модел и може да вземе най-доброто от различни модели.


На теория Devin може да се използва за решаване на голямо разнообразие от задачи, включително миграция на код. И като се има предвид, че е подкрепен от напреднали невронни мрежи със заслужена репутация, може да се очаква, че Devin лесно ще се справи с използването им. Но в действителност това не се случва.

Истинските разработчици на софтуер са намерили много недостатъци в Devin. По-рано Cognition AI публикува промоционален видеоклип, показващ как AI програмистът автономно завършва проекти на платформата за фрийлансъри Upwork. Софтуерният разработчик Карл Браун анализира видеото и напълно го развенча.

Друг експерт по програмиране и YouTube блогър на непълен работен ден също критикува Devin. Според него, този AI инструмент съдържа критични проблеми със сигурността.

Разочароващ резултат

По-късно трима учени по данни, свързани с лабораторията за изследване и развитие на изкуствения интелект Answer.AI, тестваха Devin и установиха, че е изпълнил успешно само 3 от 20 задачи. Те проведоха тестовете си през януари 2025 г., тоест почти година след официалната премиера на Devin.

Тестването е извършено от Хамел Хюсейн, Айзък Флат и Джоно Уитакър. Според техния доклад, Devin се е справил доста добре първоначално – например, успешно е мигрирал данни от база данни на Notion към Google Sheets. AI програмистът също е успял да създаде тракер на планети, за да провери твърденията за историческите позиции на Юпитер и Сатурн.

Въпреки това, докато тестовете продължават, тримата изследователи се натъкват на проблеми. „Задачи, които изглеждаха прости, често отнемаха дни, а не часове, и Devin забиваше в технически задънени улици или произвеждаше прекалено сложни, неизползваеми решения”, обясняват изследователите в своя доклад.

„Още по-тревожна беше склонността на Devin да върви напред с проблеми, които всъщност бяха невъзможни за разрешаване”, допълват специалистите.

Като пример те цитират случай, при който Devin е помолен да разположи множество приложения на платформата за разгръщане на инфраструктура Railway, но не разбрал, че това е невъзможно и прекарал повече от ден, опитвайки подходи, които не работят, и измисляйки несъществуващи функции.

От 20-те задачи, възложени на Devin, виртуалният програмист изпълнил задоволително само три – двете изброени по-горе и задачата за създаване на бот за месинджъра Discord на езика за програмиране Python. В три други задачи Devin дава несигурни резултати, а 14 проекта са пълен провал.

Изследователите казват, че Devin има изчистен потребителски интерфейс, който е впечатляващ, когато самата услуга работи правилно. „Но това е проблемът – случвало се е рядко [да работи правилно]”, подчертават те.

„Най-притеснителното беше неспособността ни да предвидим кои задачи ще бъдат успешни. Дори задачи, подобни на ранните ни успехи, се провалиха по сложни и отнемащи време начини. Автономната му същност, която изглеждаше обещаваща, се превърна в пасив – Devin прекара дни в опити да намери невъзможни решения, вместо да разпознае фундаменталните пречки”, заключават експертите.

още от категорията

Изкуствен интелект открива интернет зависимост с 86% точност

TechNews.bg

Кодът, генериран от AI, съдържа 1,7 пъти повече грешки от човешкия

TechNews.bg

7 тенденции в изкуствения интелект през 2026 г.

TechNews.bg

AI резюметата съсипват труда на кулинарните блогъри

TechNews.bg

AI не се отплаща, но компаниите увеличат разходите си за него

TechNews.bg

Тръмп наема 1000 специалисти за „Технологичната сила“

TechNews.bg

3 коментара

Старото 27/01/2025 at 09:54

Кой ги брои тези поколения 1 и 2? Алгоритмите, които се използват са измислени преди 50 години и работеха по същия начин. Просто нямаха толкова данни за обработка. Дори аз съм работил в компания, която разработваше AI. Сега се казва само Сирма, но тогава беше Sirma AI. Нищо не се случва за 1 година.

Отговор
Шумналия 26/01/2025 at 16:23

Първите 2 поколения AI с които си имаме работа в момента имат една основна функция и тя е да помагат на хората, нищо повече.
Първото поколение AI излезе ноември 2022, а в момента работим с второто поколение и те за момента са добри помощници за тези които умело могат да ги използват и до там.

Или кратко казано, нивото на AI в момента е достатъчно за да е добър помощник, но не може да свърши една работа от А до Я.

До края на тази 2025 година очакваме 3-тото поколение AI за което се твърди, че вече ще може самостоятелно да изпълнява задачи от А до Я, т.е. от това трето поколение вече се очаква да започне да “уволнява” програмисти, юристи и т.н.

С две думи, хайде да изчакаме поне до края на тази година и да видим 3-тото поколение AI, което освен всичко ще работи на новите чипове от nVidia Blackwell и да не бързаме с изводите от сега.

В края на годината ще излязат и още по-мощните чипове nVidia Rubin с HBW 4.0, които ще са още по-бързи и от Blackwell, така, че следващите 12-18 месеца ще видим какво ни очаква и ще започне ли процес на реално уволнение на хора.

Предполагам, че до края на годината ще имаме отговор на този въпрос.

Отговор
Изкуственият интелект 26/01/2025 at 08:34

За разлика от хората не го мързи в такава степен, че на сложните задачи директно да отговори “това не може да стане” както би отговприл човек, който вижда, че задачата е твърде сложна или твърде трудоемка за него и не му се занимава. Тя всъщност може да има решение, но на човекът не му се занимава, за разлика от машината, която няма нищо против да провери. Освен това човешката природа е такава, че срещайки трудности започва “да минава на пряко” т.е. търси по-просто решение па макар и то да е частично грешно и невярно и ще вложи усилия дя обяснява на поръчителя си, че “практически това е същото, което той е поръчал”, дори и това да не е точно така. За разлика от човека в машините е заложено да не бъдат мързеливи, и да не лъжат т.е. да не заключават, че нещо е невъзможно преди да са проверили всички възможности. А и всички имаме примери за това колко нескопосан софтуер има създаван от “естествен интелект”.

Отговор

Коментари