Единичен процесор няма равен в машинното обучение

Процесорът WSE-2 с право се смята за най-големият в света – съдържа 850 хиляди ядра
(снимка: Cerebras Systems)

Супер-големи процесори, които заемат цялата ​​силициева подложка, удивяват специалистите с постиженията си. Чиповете на Cerebras Systems са необичайни и изглежда нямат равни в областта на машинното обучение.

Една платформа Cerebras CS-2 може да замени почти цял компютърен клъстер при машинно обучение на голям AI модел. И компанията доказва това на практика, поставяйки нов рекорд – с най-големия AI модел в света, обучаван някога на едно устройство. Става въпрос за платформата Cerebras CS-2.

Трябва да се има предвид все пак, че CS-2, която съдържа точно един чип WSE-2, е поместена в шкаф и работи в тандем със „спомагателен” комплекс HPE Superdome Flex, „захранващ” чипа с данни. Тоест може да се оспори, че CS-2 е едно устройство.

В експеримента е обучен AI модел с 20 милиарда параметcра, което никоя друга система в света не може да направи. Cerebras „демократизира” AI изчисленията, като доставя услуги на изследователите в областта на машинната обработка на естествен език, намалявайки времето за обучение на голям AI модел от месеци на минути. Същевременно CS-2 елиминира нуждата от времеотнемащото разделяне на AI модела между възлите на традиционната клъстерна система, тъй като цялата платформа работи в „монолитен” режим.

AI моделите с голям размер изискват много ресурси и не всеки изследовател има достатъчен бюджет, за да наеме клъстер. Но CS-2 е способна да демократизира дори такива огромни модели като GPT-3 1.3B, GPT-J 6B, GPT-3 13B и GPT-NeoX 20B. Тяхното стартиране стана възможно с последната актуализация на софтуера Cerebras Software Platform. Генетиците на GSK, използващи огромни масиви от данни, също са развълнувани от новата възможност.

В сърцето на CS-2 е процесорът WSE-2, който с право се смята за най-големият в света – съдържа 850 хиляди ядра, които са оптимизирани за задачи, специфични за машинното обучение. За да „захрани” такъв невропроцесор с данни и да елиминира престоите, Cerebras използва 12 канала наведнъж със скорост 100 Gb/s. Отделен супер-сървър HPE Superdome Flex 280 отговаря за доставката на данни към процесора.

Коментар