Учени от лабораторията за изкуствен интелект Tinkoff Research разработиха нов алгоритъм за обучение на AI. На роботизирани симулатори е постигнато 20-кратно увеличение на скоростта на обучение в сравнение с всички съществуващи аналози, при 10% увеличение на качеството.
Оптимизирането на силно ресурсоемкия процес на обучение на изкуствения интелект с новия метод SAC-RND ще ускори развитието на много области, в които се прилага AI, вярват изследователите. Така например, SAC-RND може да „подобри безопасността на безпилотните превозни средства, да опрости веригите за доставки, да ускори доставките и работата на складовете, да оптимизира горивните процеси в енергийните съоръжения и да намали емисиите на вредни вещества в околната среда”.
Алгоритъмът не само подобрява работата на високоспециализирани роботи, но доближава индустрията до създаването на универсален робот, способен сам да изпълнява всяка задача.
Резултатите от изследването на Tinkoff Research бяха представени на неотдавнашната международна конференция за машинно обучение (ICML) в Хонолулу, Хавай, която е сред трите най-големи в света в областта на машинното обучение и AI.
Един от най-обещаващите типове AI обучение е Reinforcement Learning (RL, обучение с подсилване), който позволява на изкуствения интелект да се учи чрез проба и грешка, да се адаптира към сложни среди и да променя поведението си в движение. Обучението с подсилване може да се използва във всичко – от управление на задръстванията до препоръки в социалните медии.
По-рано се смяташе, че използването на произволни невронни мрежи (RND) не е приложимо за офлайн обучение с подсилване. Методът RND използва две невронни мрежи – произволна и основна, която се опитва да предвиди поведението на първата. Свойството на невронната мрежа се определя от нейната дълбочина – броя на слоевете, от които се състои. Основната мрежа трябва да съдържа повече слоеве от произволната, в противен случай моделирането и обучението стават нестабилни или дори невъзможни.
Използването на неправилни размери на мрежата доведе до погрешното заключение, че методът RND не може да дискриминира данни – да разграничи действия от набор от данни от други. Изследователите от Tinkoff Research установиха, че когато се използва еквивалентната дълбочина на мрежите, методът RND започва качествено да разграничава данните. След това те се заеха с оптимизиране на входа и научиха роботите да измислят ефективни решения, използвайки механизъм за синтез, базиран на модулация на сигнала и линейно картографиране. Преди това, при използване на метода RND, входящите сигнали не бяха подложени на допълнителна обработка.
Методът SAC-RND е тестван на роботизирани симулатори и показа по-добри резултати с по-малко ресурси и време. Откритието ще помогне за ускоряване на изследванията в областта на роботиката и обучението с подсилване, тъй като намалява времето за получаване на стабилен резултат 20 пъти и е важна стъпка към създаване на универсален робот.
Като гледам естествения, няма да остане никакъв.
Вън изкуствения интелект от България!