ChatGPT дава над 50% неверни отговори за програмиране

Повече от половината от отговорите на ChatGPT на въпроси, свързани с програмирането, са неправилни (снимка: CC0 Public Domain)

Шумът около изкуствения интелект не подмина и програмистите – много от тях предпочитат да се обърнат за съвет към ChatGPT, отколкото към специализирани ресурси. Това явление не е изненадващо, тъй като способността на AI да предоставя незабавни отговори е привлекателна за ИТ специалистите, които търсят бързи решения или разяснения. Оказа се обаче, че е твърде рано да се разчита на AI технологията – тя често се проваля.

Изследователи от университета Purdue представиха резултатите от проучване, според коeто ChatGPT отговаря неправилно на повече от половината въпроси, свързани с програмирането. В същото време чатботът отговаря толкова уверено, че е успял да убеди в своята правота повече от една трета от участниците в проучването

На 16 октомври 2023 г. ръководството на услугата за помощ на ИТ специалисти и разработчици Stack Overflow обяви уволнението на повече от 100 служители, или 28% от настоящия си персонал. Според съобщения в медиите, причината за съкращенията са различни AI услуги, чиито чатботове навлязоха във всички сфери на технологичната индустрия, включително програмирането.

Това е сериозно предизвикателство за помощния форум за програмиране, тъй като много разработчици вече са преминали към системи за подпомагане с AI кодиране и самите инструменти, които правят това, са интегрирани в софтуерните продукти, използвани от програмистите в ежедневните им дейности.

Какво показва проучването

Екип от специалисти анализира отговорите на ChatGPT на 517 въпроса на Stack Overflow, за да оцени точността, последователността, пълнотата и стегнатостта им. Американските учени също проведоха лингвистичен и сантиментален анализ на отговорите и интервюираха дузина доброволци за работата на AI модела. Според данните, 52% от отговорите на ChatGPT са неправилни, а 77% са многословни.

Отговорите на ChatGPT обаче са предпочитани в 39,34% от случаите, поради тяхната пълнота и добре формулиран стил на писане. В същото време от предпочитаните отговори на ChatGPT за ИТ специалисти около 77% са неправилни. Компанията разработчик OpenAI призна в официалния си уебсайт, че нейният софтуер може да предоставя неточна информация за хора, места или факти. В проучването 60% от респондентите намират отговорите, написани от хора, за по-правилни, кратки и полезни.

Според изследователите, само когато грешката в отговора на ChatGPT е очевидна, потребителите могат да я идентифицират. Когато грешката не може да се провери или изисква външна IDE или документация, потребителите често не успяват да идентифицират неправилността или подценяват степента на грешката в отговора.

Дори когато отговорът съдържа ясна грешка, двама от 12 участници в проучването все пак отбелязват отговора като положителен. Учените отдават това на приятния, авторитетен стил на самия ChatGPT. Учтивият език на чатбота, артикулираните отговори в стила на учебник и пълнотата на отговорите правят напълно грешните отговори да изглеждат правилни.

Например, ако потребителите преброят крави и първо поставят две крави в кошара, а след известно време още две, на отговора колко общо са станали кравите в кошарата, математиката учи, че броят им е четири. Но ChatGPT може да направи обратното и да отговори с пет! Чатботът може също да обясни отговора си, като каже, че когато потребителят въведе две допълнителни крави в кошарата, една от тези, които вече са в кошарата, е родила теле? Тогава това прави пет, нали? Това също е истина.

Студентите в Stack Overflow дори са докладвали грешки при решаване на прости задачи с графики. Например, ChatGPT бърка числовите стойности при рисуване на координатни системи, а учениците не разбират получените резултати или изобщо не разбират за какво става дума, за което получават съответни оценки от преподавателите.

Илюзия за истина

Съавторът на проучването Самия Кабир казва пред The ​​Register, че има няколко причини, поради които участниците предпочитат неправилни и многословни отговори на ChatGPT пред отговорите на Stack Overflow. Една от основните причини е колко подробни са отговорите на ChatGPT. В много случаи участниците не обръщат внимание на дължината, ако получат полезна информация от подробни и разширени отговори. Другите две причини са положителното настроение и учтивост на отговорите от чатбота.

Освен това участниците не обръщат внимание на неправилността, когато сметнат отговора на ChatGPT за смислен. Начинът, по който чатботът предава уверено проницателна информация (дори и да е невярна), печели доверието на потребителите, което ги кара да предпочитат грешния отговор.

Проучването сред потребителите има за цел да допълни задълбочен ръчен и широкомащабен лингвистичен анализ на отговорите на ChatGPT, пояснява Кабир. Изследователите канят и други анализатори да възпроизведат резултатите от този проект. От май 2024 г. наборът от данни е публично достъпен за улесняване на бъдещи проекти. Авторите отбелязват, че отговорите на ChatGPT съдържат повече „атрибути на задвижване” – език, показващ постижение и успех, но често не описват рискове.

Наред с други резултати, авторите установяват, че ChatGPT е по-вероятно да прави концептуални грешки, отколкото фактически грешки. Много отговори се оказват неправилни, поради неспособността на чатбота да разбере основния контекст на зададения въпрос.

Езиков анализ

Езиковият анализ на отговорите на ChatGPT и Stack Overflow показва, че отговорите на бота са по-формални, изразяват повече аналитично мислене, демонстрират повече усилия за постигане на целите и показват по-малко негативни емоции. И анализът на настроението показва, че отговорите на ChatGPT изразяват по-положително настроение от отговорите на Stack Overflow.

Въз основа на констатациите и наблюденията, изследователите от университета Purdue заключават, че Stack Overflow трябва да прилага ефективни методи за откриване на токсичност и негативни настроения в коментари и отговори, за да подобри настроението и вежливостта.

AI влияе на трафика

Според априлски доклад на SimilarWeb, трафикът на Stack Overflow спада с шест процента всеки месец, което предполага, че използването на ChatGPT може да допринася за това. Членовете на общността на Stack Exchange, мрежа от сайтове за въпроси и отговори, която включва Stack Overflow, стигнаха до подобно заключение въз основа на спад в активността по нови въпроси, нови отговори, публикувани на сайта, и нови потребителски регистрации.

През декември 2022 г. Stack Overflow временно забрани на потребителите да споделят отговори от чатбота ChatGPT, тъй като някои от тях бяха неправилни и модераторите не можаха бързо да ги проверят.

Годишното проучване на разработчиците на Stack Overflow сред 90 000 програмисти наскоро установи, че 77% от разработчиците имат положителни възгледи за инструментите за изкуствен интелект OverflowAI, но само 42% се доверяват на точността на инструментите.

OverflowAI е разработен с мисъл за общността и с фокус върху точността на генерираните от AI данни и съдържание. Инструментът предлага на потребителите възможност да проверяват, приписват и потвърждават точността и надеждността на данните в общността на Stack Overflow и нейните над 65 милиона въпроси и отговори.

Коментари по темата: „ChatGPT дава над 50% неверни отговори за програмиране”

добавете коментар...

  1. Anonymous

    Програмирането е за естествен интлект, а не за изкуствен!

  2. Йордан

    То повечето програмисти повече от 10% верни отговори не могат да дадат. Така че при всички случаи ИИ е по-умен от огромна част от програмистите и спокойно може да ги замени.

Коментар