
Човешкият ум засега печели битката с изкуствения интелект в програмирането
(снимка: CC0 Public Domain)
Разработчиците на софтуер могат да спят спокойно. „Първият AI програмист”, както беше позиционирана услугата с изкуствен интелект Devin, се оказа на практика безполезен инструмент, който може да се справи само с 15% от възложените му задачи.
Вече е ясно, че Devin не може да замени истински разработчик. Грандиозният проект решава само малка част от поставените пред него задачи. Успеваемостта е 15% – това е изключително нисък процент, особено като се има предвид, че Devin стартира сравнително отдавна.
Човешкият ум е по-добър от виртуалния
Devin, дошъл с претенцията, че е първият в света AI софтуерен инженер, се оказа изключително лош разработчик. Тестовете показват, че изкуственият интелект не успява да се справи с работата – изпълнява нищожните 15% от поставените пред него задачи, отбелязва The Register в публикация за проекта.
Компанията Cognition AI представи Devin през март 2024 г. До декември разработчикът проведе своеобразно затворено бета тестване, по време на което „AI програмистът” беше усъвършенстван и в края на годината Devin стана публично достъпен.
Но само тези, които имаха свободни $500, могат да го използват. Това е цената на месечен абонамент за услугата.
Твърде много обещания
В официалната документация на Devin, изготвена от Cognition AI, се казва: „Devin е автономен AI софтуерен инженер, който може да пише, изпълнява и тества код, помагайки на софтуерните инженери да работят върху лични задачи или екипни проекти”.
Според разработчиците, Devin е в състояние самостоятелно да „преглежда заявки за промени, да поддържа миграция на код, да отговаря на проблеми при повикване, да създава уеб приложения и дори да изпълнява задачи на личен асистент, като например да поръча обяд от DoorDash”, уверяват авторите на проекта.
Услугата използва корпоративния месинджър Slack като основен интерфейс за взаимодействие с потребителя, както и Docker контейнер (софтуерна платформа за разработване, доставяне и изпълнение на контейнерни приложения), който съдържа терминал, браузър, редактор на код и планировчик.
Devin поддържа API интеграция с външни услуги. Това му позволява, например, да изпраща имейли от името на потребител чрез транзакционната и маркетингова имейл услуга SendGrid.
Сложна система
Devin е „сложна AI система”. В работата си тази услуга разчита на няколко обучени модела с изкуствен интелект наведнъж, включително GPT-4o от OpenAI. С други думи, той е свободен от недостатъците на един конкретен AI модел и може да вземе най-доброто от различни модели.
На теория Devin може да се използва за решаване на голямо разнообразие от задачи, включително миграция на код. И като се има предвид, че е подкрепен от напреднали невронни мрежи със заслужена репутация, може да се очаква, че Devin лесно ще се справи с използването им. Но в действителност това не се случва.
Истинските разработчици на софтуер са намерили много недостатъци в Devin. По-рано Cognition AI публикува промоционален видеоклип, показващ как AI програмистът автономно завършва проекти на платформата за фрийлансъри Upwork. Софтуерният разработчик Карл Браун анализира видеото и напълно го развенча.
Друг експерт по програмиране и YouTube блогър на непълен работен ден също критикува Devin. Според него, този AI инструмент съдържа критични проблеми със сигурността.
Разочароващ резултат
По-късно трима учени по данни, свързани с лабораторията за изследване и развитие на изкуствения интелект Answer.AI, тестваха Devin и установиха, че е изпълнил успешно само 3 от 20 задачи. Те проведоха тестовете си през януари 2025 г., тоест почти година след официалната премиера на Devin.
Тестването е извършено от Хамел Хюсейн, Айзък Флат и Джоно Уитакър. Според техния доклад, Devin се е справил доста добре първоначално – например, успешно е мигрирал данни от база данни на Notion към Google Sheets. AI програмистът също е успял да създаде тракер на планети, за да провери твърденията за историческите позиции на Юпитер и Сатурн.
Въпреки това, докато тестовете продължават, тримата изследователи се натъкват на проблеми. „Задачи, които изглеждаха прости, често отнемаха дни, а не часове, и Devin забиваше в технически задънени улици или произвеждаше прекалено сложни, неизползваеми решения”, обясняват изследователите в своя доклад.
„Още по-тревожна беше склонността на Devin да върви напред с проблеми, които всъщност бяха невъзможни за разрешаване”, допълват специалистите.
Като пример те цитират случай, при който Devin е помолен да разположи множество приложения на платформата за разгръщане на инфраструктура Railway, но не разбрал, че това е невъзможно и прекарал повече от ден, опитвайки подходи, които не работят, и измисляйки несъществуващи функции.
От 20-те задачи, възложени на Devin, виртуалният програмист изпълнил задоволително само три – двете изброени по-горе и задачата за създаване на бот за месинджъра Discord на езика за програмиране Python. В три други задачи Devin дава несигурни резултати, а 14 проекта са пълен провал.
Изследователите казват, че Devin има изчистен потребителски интерфейс, който е впечатляващ, когато самата услуга работи правилно. „Но това е проблемът – случвало се е рядко [да работи правилно]”, подчертават те.
„Най-притеснителното беше неспособността ни да предвидим кои задачи ще бъдат успешни. Дори задачи, подобни на ранните ни успехи, се провалиха по сложни и отнемащи време начини. Автономната му същност, която изглеждаше обещаваща, се превърна в пасив – Devin прекара дни в опити да намери невъзможни решения, вместо да разпознае фундаменталните пречки”, заключават експертите.
Кой ги брои тези поколения 1 и 2? Алгоритмите, които се използват са измислени преди 50 години и работеха по същия начин. Просто нямаха толкова данни за обработка. Дори аз съм работил в компания, която разработваше AI. Сега се казва само Сирма, но тогава беше Sirma AI. Нищо не се случва за 1 година.
Първите 2 поколения AI с които си имаме работа в момента имат една основна функция и тя е да помагат на хората, нищо повече.
Първото поколение AI излезе ноември 2022, а в момента работим с второто поколение и те за момента са добри помощници за тези които умело могат да ги използват и до там.
Или кратко казано, нивото на AI в момента е достатъчно за да е добър помощник, но не може да свърши една работа от А до Я.
До края на тази 2025 година очакваме 3-тото поколение AI за което се твърди, че вече ще може самостоятелно да изпълнява задачи от А до Я, т.е. от това трето поколение вече се очаква да започне да “уволнява” програмисти, юристи и т.н.
С две думи, хайде да изчакаме поне до края на тази година и да видим 3-тото поколение AI, което освен всичко ще работи на новите чипове от nVidia Blackwell и да не бързаме с изводите от сега.
В края на годината ще излязат и още по-мощните чипове nVidia Rubin с HBW 4.0, които ще са още по-бързи и от Blackwell, така, че следващите 12-18 месеца ще видим какво ни очаква и ще започне ли процес на реално уволнение на хора.
Предполагам, че до края на годината ще имаме отговор на този въпрос.
За разлика от хората не го мързи в такава степен, че на сложните задачи директно да отговори “това не може да стане” както би отговприл човек, който вижда, че задачата е твърде сложна или твърде трудоемка за него и не му се занимава. Тя всъщност може да има решение, но на човекът не му се занимава, за разлика от машината, която няма нищо против да провери. Освен това човешката природа е такава, че срещайки трудности започва “да минава на пряко” т.е. търси по-просто решение па макар и то да е частично грешно и невярно и ще вложи усилия дя обяснява на поръчителя си, че “практически това е същото, което той е поръчал”, дори и това да не е точно така. За разлика от човека в машините е заложено да не бъдат мързеливи, и да не лъжат т.е. да не заключават, че нещо е невъзможно преди да са проверили всички възможности. А и всички имаме примери за това колко нескопосан софтуер има създаван от “естествен интелект”.