
Как работят механизмите, чрез които съвременните модели на изкуствен интелект постигат висока точност при решаване на сложни проблеми? Отговор на този въпрос дават изследователи от Google в статия, публикувана в ArXiv.
След анализ на поведението на усъвършенствани езикови модели, обучени с подсилващо обучение, авторите стигат до заключението, че от решаващо значение не е дължината на разсъжденията, а формирането на стабилна структура на вътрешен диалог между различните стратегии на мислене в рамките на модела.
„Общество на мисълта”
Статията нарича този механизъм „общество на мисълта”. В процеса на разсъждение моделът едновременно развива няколко алтернативни линии, които се тестват, критикуват и коригират взаимно. Това наподобява колективна дискусия, в която различни гледни точки последователно се сблъскват и усъвършенстват.
Авторите на статията се позовават на идеи от когнитивната наука, според която човешкото мислене се е развило като социален процес, свързан с аргументация и разрешаване на разногласия.
Според хипотезата, по време на подсилващото обучение езиковите модели започват да възпроизвеждат подобна структура в рамките на собствените си изчисления, тъй като това увеличава вероятността за получаване на правилния отговор.
Какво показват тестовете
За да тестват хипотезата, учените са изследвали производителността на моделите DeepSeek-R1 и QwQ-32B. И двата модела са обучени без инструкции за участие във вътрешен диалог.
При анализа на техните вериги на разсъждения обаче е установено, че AI моделите редовно разделят процеса на решение на няколко „роли”, изпълняващи различни функции: генериране на идеи, проверка на предположения, търсене на алтернативи и коригиране на грешки.
Например, в задача за органичен синтез, моделът първо предлага стандартен път на реакция, но след това вътрешен механизъм за проверка оспорва първоначалното предположение и посочва противоречие с известни факти. В резултат на това моделът пресъздава решението и избира правилния път на синтез.
Подобна структура се наблюдава при задачи за редактиране на текст, където един фрагмент от разсъждения е отговорен за стилистичните подобрения, а друг – за запазване на оригиналния смисъл.
Този ефект е особено очевиден в математическата игра Countdown, където моделът трябва да получи дадено число, използвайки фиксиран набор от операции. В ранните етапи на обучението той решава проблема, използвайки линеен монолог. С напредване на обучението с подсилване, в рамките на разсъжденията започват да се формират два стабилни режима: единият отговорен за поетапните изчисления, а другият за наблюдение на неуспешни опити и търсене на нови стратегии. Това е съпроводено със значително повишаване на точността.
Различни методи на обучение
Отделна серия от експерименти показа, че увеличаването на разнообразието от вътрешни състояния на модела – например чрез активиране на механизми, свързани с „изненада“ – води до по-широк спектър от разглеждани хипотези и почти двукратно повишаване на точността при сложни проблеми. Простото удължаване на веригите на разсъждения без вътрешно разнообразие обаче не води до този ефект.
Авторите също така сравняват различни методи на обучение. Моделите, преобучени върху линейни „идеални” решения, демонстрират по-слаби резултати от системите, в които спонтанно се появяват вътрешни дискусии. В същото време, допълнителното обучение с помощта на многостранни диалози и дебати води до значително подобрение в качеството, в сравнение с класическите вериги на разсъждения.
Това предполага, че способността за вътрешно „социално” разсъждение възниква като страничен ефект от оптимизацията за правилния отговор, а не в резултат на пряко наблюдение. По същество обучението с подсилване принуждава модела да изгради вътрешен механизъм за проверка на хипотези, тъй като това увеличава вероятността за успех.
Подобряване на качеството
Практическото значение на това изследване се състои в разработването на приложни системи с изкуствен интелект. Авторите демонстрират, че за да се подобри качеството на разсъжденията, е важно не просто да се присвоят на модела множество роли в подканата, а да се формулират противоположни предположения, които правят конфликта между стратегиите неизбежен. Това позволява на системата да изследва пространството на решенията по-задълбочено и да избягва повърхностни отговори.
Освен това, изследването поставя под въпрос практиката на стриктно почистване на данните за обучение. Според авторите, работните тетрадки, кореспонденцията и техническите дискусии, в които решенията се формират постепенно и с грешки, могат да бъдат особено полезни за обучение на модели в умения за проучване и самопроверка.
Специално внимание се обръща на въпросите на доверието и одита. В областите с висок риск е важно потребителите да виждат не само крайния отговор, но и кои алтернативи са били разгледани и защо са били отхвърлени. Това изисква разработване на интерфейси, които могат да показват вътрешните разсъждения на модела.
