Microsoft обедини десетки хиляди чипове в скъп суперкомпютър за OpenAI

Софтуерният гигант вече работи по следващото поколение суперкомпютър за изкуствен интелект, част от разширена сделка с OpenAI, в която Microsoft добави 10 млрд. долара към инвестицията си

19:00 | 14 март 2023

Автор: Дина Бас

снимка: Bloomberg LP

Когато през 2019 г. Microsoft Corp. инвестира 1 милиард долара в OpenAI, тя се съгласи да изгради огромен, авангарден суперкомпютър за стартъпа за изследвания на изкуствения интелект. Единственият проблем: Microsoft не разполагаше с нищо подобно на това, от което се нуждаеше OpenAI, и не беше напълно сигурна, че може да изгради нещо толкова голямо в облачната си услуга Azure, без то да се счупи.

OpenAI се опитваше да обучи все по-голям набор от програми за изкуствен интелект, наречени модели, които поглъщаха все по-големи обеми от данни и научаваха все повече параметри - променливи, които системата за изкуствен интелект е установила чрез обучение и преобучение. Това означаваше, че OpenAI се нуждаеше от достъп до мощни изчислителни услуги в облака за дълги периоди от време.

За да се справи с това предизвикателство, Microsoft трябваше да намери начини да свърже десетки хиляди графични чипове A100 на Nvidia Corp. - работната сила за обучение на моделите на изкуствения интелект - и да промени начина, по който разполага сървърите в шкафовете, за да предотврати прекъсвания на захранването. Скот Гътри, изпълнителен вицепрезидент на Microsoft, който отговаря за облачните услуги и изкуствения интелект, не пожела да посочи конкретна стойност на проекта, но заяви, че "вероятно е по-голяма" от няколкостотин милиона долара.

"Създадохме системна архитектура, която може да работи и да бъде надеждна в много голям мащаб. Именно това доведе до създаването на ChatGPT", казва Ниди Чапъл, генерален мениджър на инфраструктурата Azure AI в Microsoft. "Това е един от моделите, които се появиха в резултат на това. Ще има много, много други."

Технологията позволи на OpenAI да пусне ChatGPT - чатбот, който привлече над 1 милион потребители в рамките на няколко дни след излизането си на борсата през ноември и сега се включва в бизнес моделите на други компании - от тези, управлявани от милиардера и основател на хедж фонд Кен Грифин, до услугата за доставка на храна Instacart Inc. Тъй като инструментите за генериращ изкуствен интелект като ChatGPT се радват на интерес от страна на бизнеса и потребителите, върху доставчиците на облачни услуги като Microsoft, Amazon.com Inc. и Google на Alphabet Inc. ще бъде оказван все по-голям натиск, за да могат техните центрове за данни да осигурят необходимата огромна изчислителна мощност.

Сега Microsoft използва същия набор от ресурси, които е изградила за OpenAI, за да обучава и управлява собствените си големи модели на изкуствен интелект, включително новия бот за търсене Bing, представен миналия месец. Освен това тя продава системата на други клиенти. Софтуерният гигант вече работи по следващото поколение суперкомпютър за изкуствен интелект, част от разширена сделка с OpenAI, в която Microsoft добави 10 млрд. долара към инвестицията си.

"Ние не им създадохме нещо по поръчка - тя започна като нещо по поръчка, но винаги сме я създавали по начин, който да я обобщи, така че всеки, който иска да обучи голям езиков модел, да може да използва същите подобрения", каза Гътри в интервюто. "Това наистина ни помогна да се превърнем в по-добър облак за изкуствен интелект в широк смисъл."

Тренирането на масивен модел на AI изисква голям пул от свързани графични процесори на едно място като суперкомпютъра за AI, който Microsoft сглоби. След като моделът се използва, отговарянето на всички запитвания, които потребителите задават - наречено извод - изисква малко по-различна конфигурация. Microsoft също разполага с графични чипове за изводи, но тези процесори - стотици хиляди от тях - са географски разпръснати в повече от 60 региона на центровете за данни на компанията. Сега компанията добавя най-новия графичен чип на Nvidia за работни натоварвания с изкуствен интелект - H100 - и най-новата версия на мрежовата технология Infiniband на Nvidia за още по-бърз обмен на данни, съобщи Microsoft в понеделник в публикация в блога си.

Новият Bing все още е в предварителен преглед, като Microsoft постепенно добавя повече потребители от списъка на чакащите. Екипът на Гътри провежда ежедневни срещи с около две дузини служители, които са нарекли "пит екипаж" по името на групата механици, които настройват състезателните автомобили по средата на състезанието. Задачата на групата е да измисли как бързо да се включи по-голям изчислителен капацитет, както и да отстранява възникнали проблеми.

"Това е нещо като сбирка, в която се казва: "Хей, всеки, който има добра идея, нека я постави на масата днес, да я обсъдим и да разберем: ОК, можем ли да спестим няколко минути? Можем ли да спестим няколко часа? Няколко дни?" каза Гътри.

Услугата в облака зависи от хиляди различни части и елементи - отделните части на сървърите, тръбите, бетона за сградите, различни метали и минерали - и забавянето или недостигът на който и да е компонент, независимо колко малък е той, може да срине всичко. Неотдавна екипът трябваше да се справи с недостига на кабелни корита - подобни на кошчета приспособления, които държат кабелите, излизащи от машините. Затова те разработиха нова кабелна табла, която Microsoft можеше да произведе сама или да намери откъде да купи. Работят и по начини да вместят възможно най-много сървъри в съществуващите центрове за данни по света, за да не се налага да чакат за нови сгради - казва Гътри.

Когато OpenAI или Microsoft обучават голям модел на изкуствен интелект, работата се извършва наведнъж. Тя се разпределя между всички графични процесори и в определени моменти звената трябва да разговарят помежду си, за да споделят свършената работа. За суперкомпютъра за AI Microsoft трябваше да се увери, че мрежовото оборудване, което осъществява комуникацията между всички чипове, може да се справи с това натоварване, и трябваше да разработи софтуер, който да използва по най-добрия начин графичните процесори и мрежовото оборудване. Сега компанията е разработила софтуер, който ѝ позволява да обучава модели с десетки трилиони параметри.

Тъй като всички машини се включват едновременно, Microsoft трябваше да помисли къде са разположени и къде се намират захранващите устройства. В противен случай се получава вариант на центъра за данни, какъвто става, когато в кухнята включите едновременно микровълнова печка, тостер и прахосмукачка - казва Гътри.

Компанията също така трябваше да се увери, че може да охлади всички тези машини и чипове, и използва изпарение, външен въздух при по-хладен климат и високотехнологични охладители при горещ климат - каза Алистър Спиърс, директор на глобалната инфраструктура на Azure.

Microsoft ще продължи да работи по персонализирани проекти на сървъри и чипове, както и по начини за оптимизиране на веригата за доставки, за да постигне възможно най-голямо увеличение на скоростта, ефективност и икономии на разходи, каза Гътри.

"Моделът, който в момента покорява света, е изграден на базата на суперкомпютъра, който започнахме да изграждаме преди няколко години. Новите модели ще бъдат изградени на новия суперкомпютър, който обучаваме сега, който е много по-голям и ще позволи още по-голяма сложност", посочи той.