Различният път на Google: персонализираните AI чипове

Подходът на Google към процесорите e различен – компанията създава TPU чипове, ASIC, които са специално създадена за конкретни цели (графика: CC0 Public Domain)

В лаборатория на Google, разположена в централата на компанията в Маунтин Вю, Калифорния, стотици сървъри изпълняват задачи, които не са свързани с работата на доминиращата в света интернет търсачка или милионите клиенти на облака Google Cloud. Вместо това те провеждат тестове на собствените микрочипове на Google, наречени Tensor Processing Units или TPU.

Първоначално обучени за вътрешни натоварвания, TPU на Google са достъпни за облачни клиенти от 2018 г. През юли т.г. Apple разкри, че използва TPU за обучение на AI модели, които са в основата на изкуствения интелект Apple Intelligence. Google също разчита на TPU, за да обучи и управлява своя AI чатбот Gemini.

„Светът има фундаментално убеждение, че всички тези AI, големите езикови модели, се обучават на Nvidia, и разбира се, че Nvidia притежава лъвския дял в обучението. Но Google пое по собствен път”, казва изпълнителният директор на Futurum Group Даниел Нюман в интервю за CNBC. Той следи и коментира персонализираните облачни чипове на Google от пускането им през 2015 г.

Google беше първият облачен доставчик, който направи персонализирани AI чипове. Три години по-късно Amazon Web Services обяви първия си облачен AI чип, Inferentia. Персонализираният AI чип Maia на Microsoft се появи в края на 2023 г.

Но това, че сте първи в AI чиповете, не означава първо място в общата надпревара за генеративен AI. Google беше изправен пред критики за неуспешни издания на продукти, а Gemini излезе повече от година след ChatGPT на OpenAI.

Google Cloud обаче набра скорост отчасти благодарение на AI предложенията. Компанията-майка на Google, Alphabet, отчете ръст на приходите от облака с 29% през последното тримесечие, надхвърляйки за първи път 10 милиарда долара на тримесечие.

„Прост, но мощен мисловен експеримент”

„Всичко започна с прост, но мощен мисловен експеримент”, спомня си ръководителят на персонализираните облачни чипове в Google, Амин Вахдат, който за първи път се заигра с идеята да прави чипове през 2014 г.

„Много потенциални клиенти зададоха въпроса: Какво ще се случи, ако потребителите на Google искат да взаимодействат с Google чрез глас само за 30 секунди на ден? И колко изчислителна мощност ще ни трябва, за да поддържаме нашите потребители?”, разказва той.

Групата решава, че Google ще трябва да удвои броя на компютрите в своите центрове за данни. Затова търси по-добро решение.

„Осъзнахме, че можем да изградим персонализиран хардуер, не хардуер с общо предназначение – в случая модули за обработка на тензор – за да поддържаме това много, много по-ефективно. Всъщност, 100 пъти по-ефективно, отколкото би било иначе”, казва Вахдат.

Центровете за данни на Google все още разчитат на централни процесори с общо предназначение (CPU) и графични процесори на Nvidia (GPU). TPU на Google са различен тип чип, наречен интегрална схема за специфично приложение или ASIC, която е специално създадена за конкретни цели. TPU е фокусиран върху изкуствения интелект. Google прави и друга ASIC с фокус върху видеото, наречена Video Coding Unit.

Google също прави персонализирани чипове за своите устройства, подобно на Apple. Tensor G4 захранва новия смартфон Pixel 9 с активиран AI на Google, а новият A1 чип захранва Pixel Buds Pro 2.

TPU обаче е това, което отличава Google. Това беше първият по рода си чип, когато стартира през 2015 г. Google TPU все още доминира сред персонализираните облачни AI ускорители, с 58% пазарен дял, според The Futurum Group.

Google измисли името TPU въз основа на алгебричния термин „тензор”, отнасящ се до широкомащабните матрични умножения, които навлязоха с AI приложенията. С второто издание на TPU през 2018 г. Google разшири фокуса от изводи към обучение и направи чиповете достъпни за своите облачни клиенти – за изпълнение на работни натоварвания, заедно с водещи на пазара чипове като графичните процесори на Nvidia.

„Ако използвате GPU, те са по-програмируеми, те са по-гъвкави. Но доставките им са ограничени”, казва Стейси Расгон, старши анализатор на полупроводниковата индустрия в Bernstein Research.

Бумът на AI изпрати акциите на Nvidia нагоре и катапултира производителя на чипове до пазарна капитализация от $3 трилиона през юни, надминавайки Alphabet и борейки се с Apple и Microsoft за позицията на най-ценната публична компания в света.

„Ако сме откровени, тези специални AI ускорители не са толкова гъвкави или мощни като платформата на Nvidia и това е, което пазарът също чака да види: може ли някой да играе в това пространство?”, коментира Нюман.

Сега, след като знаем, че Apple използва TPU на Google, за да обучи своите AI модели, истинският тест ще дойде, когато тези AI функции се появят в iPhone и Mac през следващата година.

Broadcom и TSMC

Не е малко постижение да се разработят алтернативи на AI чиповете на Nvidia. Шестото поколение TPU на Google, наречено Trillium, трябва да излезе по-късно тази година.

„Скъпо е. Имате нужда от много мащаб”, казва Расгон. „И така, това не е нещо, което всеки може да направи. Но хиперскейлърите имат мащаба, парите и ресурсите, за да тръгнат по този път”.

Процесът е толкова сложен и скъп, че дори хиперскейлърите не могат да го направят сами. От първия си TPU, Google си партнира с Broadcom – разработчик на чипове, който също помага на Meta да проектира своите AI чипове. Broadcom твърди, че е похарчил повече от 3 милиарда долара, за да осъществи тези партньорства.

„AI чиповете – те са много сложни. Има много неща там. Така че Google осигурява изчислението”, казва Расгон. „Broadcom прави всички периферни неща. Те правят I/O и SerDes, всички различни части, които са около това изчисление. Те правят и опаковането”.

След това окончателният дизайн се изпраща за производство в завод на най-големия производител на чипове в света, Taiwan Semiconductor Manufacturing Company (TSMC) – компанията, която прави 92% от най-модерните чипове в света.

На въпроса дали Google има някакви предпазни мерки, ако се случи най-лошото в геополитическата сфера между Китай и Тайван, Вахдат казва: „Това със сигурност е нещо, за което се подготвяме и обмисляме, но се надяваме, че всъщност не е нещо, което ще трябва да задействаме”.

Защитата срещу тези рискове е основната причина Белият дом да раздаде 52 милиарда долара финансиране по Закона за чиповете на компании, които строят фабрики в САЩ – като най-големите дялове отиват към Intel, TSMC и Samsung до момента.

Процесори и мощност

Като оставим настрана рисковете, Google току-що направи още един голям ход в чиповете, обявявайки, че първият му CPU с общо предназначение, Axion, ще бъде наличен до края на годината.

„Сега можем да вкараме последното парче от пъзела, процесора”, казва Вахдат. „И така, много от нашите вътрешни услуги, независимо дали става дума за BigQuery, независимо дали е Spanner, рекламиране в YouTube и други, работят на Axion”.

Google закъснява в CPU играта. Amazon пусна своя процесор Graviton през 2018 г. Alibaba пусна сървърен чип през 2021 г. Microsoft обяви свой процесор през ноември.

Защо Google не направи CPU по-рано?: „Нашият фокус беше върху това къде можем да предоставим най-голяма стойност за клиентите и започнахме с TPU, нашите видео кодиращи единици, нашата мрежа. Наистина си мислехме, че моментът за тях е сега”, споделя Вахдат.

Всички тези процесори от компании, които не са производители на чипове, включително Google, са направени на Arm архитектура – по-персонализирана, енергийно ефективна алтернатива, която набира популярност спрямо традиционния x86 модел на Intel и AMD.

Енергийната ефективност е от решаващо значение, тъй като до 2027 г. се очаква AI сървърите да изразходват толкова енергия всяка година, колкото страна като Аржентина. Последният екологичен доклад на Google показа, че емисиите са се увеличили с близо 50% от 2019 г. до 2023 г., отчасти поради растежа на центровете за данни за захранване на AI.

„Без ефективността на тези чипове, числата можеха да се окажат много по-различни”, казва Вахдат. „Ние продължаваме да се ангажираме действително да управляваме тези цифри по отношение на въглеродните емисии от нашата инфраструктура, 24/7, като ги довеждаме до нула”.

Необходимо е огромно количество вода за охлаждане на сървърите, които обучават и управляват AI. Ето защо третото поколение TPU на Google разчита на охлаждане директно към чипа, което използва много по-малко вода. Това е и начинът, по който Nvidia охлажда най-новите си графични процесори Blackwell.

Въпреки предизвикателствата, от геополитиката до енергията и водата, Google се ангажира със своите генеративни AI инструменти и прави свои собствени чипове. „Никога не съм виждал нещо подобно и все още няма признаци за забавяне”, казва Вахдат. „И хардуерът ще играе наистина важна роля”.

Коментар