Всички срещу NVIDIA: лансират отворена алтернатива на NVLink

Отворен стандарт за взаимосвързаност се позиционира като алтернатива на NVLink за разработчиците на HPC системи и AI клъстери (снимка: Nvidia)

Консорциумът UALink публикува първите спецификации за по-достъпна алтернатива на патентованите решения на Nvidia, разработени в рамките на алианса. В него членуват компаниите AMD, AWS, Astera Labs, Cisco, Google, HPE, Intel, Meta и Microsoft.

Проектът за взаимосвързаност UALink цели да замени преди всичко NVLink и разчита до голяма степен на AMD Infinity Fabric, въпреки че засега се конкурира повече с Ethernet и InfiniBand по отношение на скоростта, отбелязва The Register в публикация за отворената алтернатива.

Консорциумът Ultra Accelerator Link (UALink) беше формиран в края на миналата година с цел създаване на високоскоростна връзка с ниска латентност, базирана на отворени технологии. Тук не става въпрос само за ангажимент към отворените стандарти, но и за солидна потенциална част от пазара – само през изминалата финансова година мрежовият отдел на Nvidia спечели 13 милиарда долара.

Появата на по-достъпна и отворена алтернатива теоретично трябва да подкопае позицията на Nvidia в този сектор и да позволи на разработчиците на HPC системи и AI клъстери да избегнат твърдото обвързване с един доставчик. Това означава възможност за организиране на UALink мрежа, която включва графични процесори и ускорители от различни доставчици.

Спецификации на UALink 200G 1.0

Акцентът в първата версия на новия отворен стандарт за взаимосвързаност е върху споделения достъп до паметта на ускорителите с висока скорост, ниска латентност и прости атомарни операции.

UALink 200G 1.0 е базиран на комутирана мрежа с пропускателна способност от 200 Gbps на линия, до голяма степен наследена от AMD Infinity Fabric, но допълнена с разработки от други членове на алианса. Максималният брой линии на ускорител може да достигне четири, което позволява увеличаване на пропускателната способност до 800 Gbit/s. Поддържа се бифуркация.

Размерът на клъстера в тази версия на UALink е ограничен до 1024 възли, без да се броят комутаторите. В същото време линейните скорости са гарантирани на нивото на съответните версии на Ethernet, но с една трета до половина по-ниска консумация на енергия и с време за реакция на нивото на комутируемите варианти на PCI Express.

Закъснението от порт до порт трябва да бъде по-малко от 100 ns, а на ниво UASwitch – 100-150 ns. За сравнение, NVLink 5/6 позволява комбиниране на до 576 ускорителя в един домейн със скорост до 0,9–1,8 TB/s на ускорител.

UALink поддържа също съвместна работа с Ethernet в GPU клъстер, където хост процесорите комуникират помежду си чрез традиционна мрежа (включително Ultra Ethernet), а ускорителите могат да използват директна или комутируема UALink връзка.

Данните се предават в 680-байтови думи: 640-байтови флит-пакети + 40 байта служебни данни за изпреварваща корекция на грешки (FEC) и кодиране 256B/257B. Реализирани са механизми за достъп до отдалечена памет, но не се поддържа кохерентност на хардуерно ниво, а също така има разлики в подслоя PCS (Physical coding sublayer).

На физическо ниво се използва стандартът IEEE 802.3dj: 200GBASE-KR1/CR1, 400GBASE-KR2/CR2 и 800GBASE-KR4/CR4. Наличните Ethernet ретаймери също са съвместими с UALink.

В очакване на хардуерни решения

Спецификациите на UALink 200G 1.0 са налични на уебсайта на проекта. Лидерът на консорциума UALink Къртис Боумен е оптимист. Според него, след около 18 месеца ще се появят първите хардуерни решения за UALink 200G 1.0, което е шест месеца по-бързо от типичните сценарии за внедряване на спецификации „в хардуер”.

Междувременно алиансът вече е започнал работа по втората версия на UALink, която използва технологичния стек 400G.

Коментар