
Американският разработчик Anthropic обучава своя популярен AI модел Claude да се самокоригира. Агентите с изкуствен интелект вече могат самостоятелно да анализират грешките си и да подобряват стратегиите си.
Anthropic представи нова система Dreaming за платформата Claude Managed Agents, която позволява на AI агентите самостоятелно да анализират собствения си опит, да извличат модели от минали задачи и да подобряват поведението си в бъдещи сесии.
Разработчиците наричат това стъпка към самокоригиращи се AI системи, които могат постепенно да се учат от грешките си, без да се налага преобучаване на модела.
На годишната конференция Code with Claude в Сан Франциско Anthropic пусна в публична бета версия и две други технологии – Outcomes и Multi-Agent Orchestration. Първата позволява на агентите автоматично да проверяват работата си спрямо предварително определени критерии за качество, докато втората разделя сложни задачи между няколко специализирани AI агенти.
Anthropic смята Dreaming за основната си иновация. За разлика от конвенционалната памет, където изкуственият интелект просто съхранява контекста на разговор или предпочитанията на потребителя, Dreaming работи като отделен процес на анализ „в спящ режим“.
Системата периодично преглежда миналите сесии на агентите, търсейки повтарящи се модели, грешки и успешни решения, след което ги преобразува в текстови бележки и структурирани инструкции за бъдеща работа.
Anthropic подчертава, че това не включва пренаписване на самата невронна мрежа или промяна на нейните тегла. Изкуственият интелект не се „преобучава“ директно. Вместо това, агентът създава свои собствени „наръчници“ – един вид ръководство за бъдещи версии на себе си.
Алекс Алберт, ръководител на продуктовите изследвания в Anthropic, сравнява системата с натрупването на професионален опит от човек. Според него, след като завърши сложна задача, човек обикновено развива вътрешно умение или работен процес, докато Dreaming прави същото автоматично – само че за изкуствен интелект.
Компанията направи демонстрация с измислен аерокосмически стартъп Lumara, който разработва автономни дронове за кацане на Луната. Системата използва едновременно няколко AI агента: единият е отговорен за избора на място за кацане, вторият за навигация и третият за цялостния успех на мисията.
След серия от несъвършени симулации, екипът активира Dreaming. През нощта системата анализира предишни опити и автоматично създава подробен „план за кацане“. На следващия ден производителността на симулацията се увеличи значително.
Anthropic твърди, че този подход помага за решаване на един от ключовите проблеми със съвременните AI агенти: влошаването на качеството по време на дълги и сложни сесии. Компанията отбелязва, че отделен агент за проверка, работещ в „чист контекстен прозорец“, често открива грешки по-добре от същия агент в рамките на дълга верига от разсъждения.
В същото време Anthropic увеличава фокуса си върху многоагентните системи. Multi-Agent Orchestration позволява на един „главен“ агент да разпределя подзадачи между специализирани агенти с отделни контекстни прозорци и собствени инструменти.
Компанията смята, че този подход е по-ефективен от опитите да се ограничи цялата сложност на задачата в рамките на един диалогов прозорец.
Главният изпълнителен директор на Anthropic, Дарио Амодей, заяви, че растежът на компанията е надминал значително очакванията: вместо планирания десетократен годишен растеж, Anthropic е постигнала 80-кратно увеличение на потреблението и приходите на годишна база.
Според него, това е причината за постоянния недостиг на изчислителна мощност. Компанията обяви партньорство със SpaceX за разширяване на изчислителната си инфраструктура чрез центъра за данни Colossus.
Anthropic залага, че през следващите години основното конкурентно предимство на AI платформите няма да бъде просто „интелигентността на модела“, а способността за надеждна автономна работа в дълги производствени процеси – с памет, интроспекция и постепенно натрупване на опит.
