Печели ли Китай?

Внезапната поява на DeepSeek показва как индустрията на изкуствения интелект в страната процъфтява

25 September 2025 | 16:16
Обновен: 25 September 2025 | 16:16
Снимка: Bloomberg LP
Снимка: Bloomberg LP

Със своята мъничка фигура и сдържан стил Лян Уенфън може да изглежда срамежлив по време на срещи, дори нервен. Основателят на DeepSeek - китайският стартъп, който наскоро преобърна света на изкуствения интелект - е склонен към прекъсване на речта и продължително мълчание. Но новите служители бързо се научават да не бъркат тихото му размишление с плахост. Щом Лян проумее тънкостите на дискусията, той отправя точни и трудни за отговор въпроси за архитектурата на моделите, разходите за изчисления и други тънкости на системите за изкуствен интелект на DeepSeek.

Служителите се обръщат към Лян с lâobân или „шефе“ - обичаен знак на уважение към бизнес началниците в Китай. Необичайното е колко много lâobân дава възможност на младите изследователи и дори стажантите да поемат големи експериментални проекти, като обичайно се отбива до бюрата им за новини и ги подтиква да обмислят необичайни инженерни пътища. Колкото по-технически е разговорът, толкова по-добре, особено ако води до реално повишаване на производителността - важни постижения, които Лян лично е споделял във вътрешния им канал за съобщения Lark. „Той е истински ботаник“, казва един бивш служител на DeepSeek, който, както и много други хора, интервюирани за тази статия, поиска анонимност, защото не е упълномощен да говори публично за компанията. „Понякога имах чувството, че той разбира изследванията по-добре от своите изследователи.“

Лян и неговата млада компания се издигнаха на международната сцена през януари, когато пуснаха R1 - модел на изкуствен интелект, който имаше характер на експлозивен пробив. R1 победи доминиращите западни играчи в няколко стандартизирани теста, които обикновено се използват за оценка на ефективността на изкуствения интелект, но DeepSeek твърди, че е създала базовия си модел за около 5% от приблизителната цена на GPT-4, модела, който е в основата на ChatGPT на OpenAI.

Резултатите от тестовете предизвикаха разпродажба на американските пазари за 1 трилион долара и трънливи въпроси относно стратегията на САЩ за използване на контрол върху износа, за да се забави напредъкът на Китай в областта на изкуствения интелект. Amazon и Microsoft се надпреварваха да добавят моделите на DeepSeek към своите облачни предложения, заедно с конкурентите от Meta и Mistral AI. „По принцип за един уикенд интересът към DeepSeek нарасна толкова много, че започнахме да действаме“, казва Атул Део, който наблюдава пазара за езикови модели на Amazon.com.

DeepSeek разчисти замъгления прозорец, през който американците са гледали на голяма част от китайската сцена на изкуствения интелект: забулена в мистерия, по-лесна за отхвърляне като преувеличен призрак, но много вероятно по-страшна, отколкото са склонни да признаят. Преди появата на стартъпа много американски компании и политици поддържаха успокояващото мнение, че Китай все още изостава значително от Силициевата долина, което им даваше време да се подготвят за евентуален паритет или да попречат на Китай изобщо да стигне до него.

В действителност Ханджоу, където е базирана DeepSeek, и други китайски високотехнологични центрове се радват на малки дракони на изкуствения интелект, както често се наричат стартиращите компании за изкуствен интелект. Усъвършенстваните чатботове на местни стартъпи като MiniMax и Moonshot AI набират популярност, включително и в САЩ. Фамилията големи езикови модели Qwen на Alibaba Group Holding неизменно се нарежда в челото на известни класации сред LLM на Google и Anthropic; главният изпълнителен директор на Baidu Робин Ли се похвали през април, че гигантът в търсенето може да разработи модели, които са толкова добри, колкото тези на DeepSeek, но дори по-евтини, благодарение на новия си суперкомпютър, сглобен със собствени средства и чипове.

Huawei Technologies също печели похвали за продуктите, които е разработила, за да се конкурира с оборудването на Nvidia, чиито графични процесори (GPU) захранват най-усъвършенстваните модели с изкуствен интелект в САЩ и Европа.

До неотдавна Китайската комунистическа партия подрязваше крилата на това, което смяташе за неконтролируем технологичен сектор. Започнаха антитръстови проверки и прегледи на съответствието на данните, известни личности като съоснователя на Alibaba Джак Ма изчезнаха от общественото полезрение, а за социалните медии, икономиката на концертите и приложенията за игри бяха наложени нови регулации. Сега ККП се опитва да издигне националната си технологична индустрия пред лицето на чуждестранната намеса. Президентът Си Дзинпин мобилизира ресурси за изкуствен интерлект и полупроводници, като окуражава висококвалифицираната работна сила на Китай и призовава за „независима, контролируема и съвместна“ софтуерна и хардуерна екосистема.

По ирония на съдбата скорошните успехи на Китай се дължат и на геополитически ограничения, целящи да забавят темпото на развитие на изкуствения интелект. Уей Сун, анализатор в Counterpoint Technology Market Research, казва, че разликата в изкуствения интелект между САЩ и Китай вече се измерва в месеци, а не в години. „В Китай има колективна етика и желание да се работи интензивно, което води до превъзходство в изпълнението“, казва Сун, като отбелязва, че принудителният недостиг на чипове Nvidia е открил нови иновации в областта на изкуствения интелект. „Тази динамика създава един вид Дарвинов натиск: оцеляват тези, които могат да направят повече с по-малко.“

Там, където Китай вижда иновации, мнозина в САЩ продължават да подозират злоупотреби. В доклад от април на двупартийна комисия в Камарата на представителите се твърди, че DeepSeek има „значителни“ връзки с китайското правителство, като се заключава, че компанията незаконно е откраднала данни от OpenAI и представлява „дълбока заплаха“ за националната сигурност на САЩ. Дарио Амодей, главен изпълнителен директор на Anthropic, призова за по-строг контрол на износа от страна на САЩ, като в блог публикация от 3400 думи твърди, че DeepSeek трябва да е вкарала контрабандно значителни количества графични процесори на Nvidia, включително най-модерните H100 (Bloomberg News наскоро съобщи, че американски служители проверяват дали DeepSeek е заобиколила ограниченията за износ, като е закупила забранени чипове чрез трети страни в Сингапур). Посолството на Китай отхвърли твърденията на комисията на Камарата на представителите като „неоснователни“. Nvidia заяви, че чиповете на DeepSeek са отговаряли на изискванията за износ и че повече ограничения биха могли да бъдат от полза за китайските полупроводници. Говорител на производителя на чипове заяви, че принуждаването на DeepSeek да използва повече чипове и услуги от Китай ще „стимулира Huawei и чуждестранните доставчици на инфраструктура за изкуствен интелект“. Компанията, която е в центъра на този дебат, продължава да бъде нещо като енигма. DeepSeek се гордее с това, че предоставя своите технологии за изкуствен интелект като отворен код, като същевременно не е открита по отношение на вътрешните си механизми или намерения. Тя разкрива хиперспецифични детайли от своите изследвания в публични документи, но не предоставя основна информация за общите разходи за изграждане на нейния изкуствен интелект, за текущия състав на нейните графични процесори или за произхода на нейните данни.

Самият Лян отдавна е известен с това, че е толкова необщителен, че някои лидери на китайската сцена на изкуствения интелект го наричат помежду си „Технически луд“ - вариант на прозвище, запазено за ексцентрични предприемачи с огромни амбиции. През последните 10 месеца той не е дал нито едно интервю за пресата и малцина знаеха как изглежда, докато не се появи снимка на момчешкото му лице с коси очи по време на неотдавнашно изслушване с китайския премиер Ли Цян. Лян и колегите му не отговориха на многократните молби за коментар за тази статия, с изключение на автоматичен отговор от един от служителите, в който се казва, че запитването се обработва: „Благодарим Ви за вниманието и подкрепата за DeepSeek!“, се казва още в имейла.

За да разберем по-добре как работи компанията и как тя се вписва в по-широките амбиции на страната в областта на изкуствения интелект, Bloomberg Businessweek разговаря с 11 бивши служители на Лян, както и с повече от три дузини анализатори, инвеститори в рисков капитал и ръководители, близки до китайската индустрия за изкуствен интелект.

Липсата на публично присъствие позволи на критици като Амодей и ръководителя на OpenAI Сам Алтман да запълнят празнотата с обвинения, които намират отклик сред американската аудитория, настроена да гледа на китайските технологии като на сенчеста заплаха. Но дори и тези, които продължават да са предпазливи по отношение на DeepSeek, са принудени да се справят с неоспоримите постижения на неговия изкуствен интелект. Дмитрий Шевеленко, главен бизнес директор на Perplexity AI, казва, че нито един служител на неговата компания, която произвежда продукт за търсене с помощта на изкуствен интелект, не е успял да се свърже с колегите си от DeepSeek. Въпреки това Perplexity е приела технологията на DeepSeek, като я хоства само на сървъри в САЩ и Европа и я обучава след това да премахва всички набори от данни, които са показателни за цензурата на ККП. Perplexity го брандира като R1 1776 (препратка към годината на основаване на САЩ), което Шевеленко описва като почит към свободата. „Не знаем какви са истинските мотиви на DeepSeek“, казва той. „Това е малко черна кутия.“

 

DeepSeek е очаквала, че нейният изкуствен интелект може да предизвика безпокойство в чужбина. В пропусната виртуална презентация на конференцията за разработчици на Nvidia през март 2024 г. Дели Чен, изследовател в областта на дълбокото обучение в DeepSeek, говори за това как ценностите трябва да бъдат „отделени“ от УУЗ и адаптирани към различните общества. На един хладнокръвно логичен слайд Чен показа прототип на DeepSeek за персонализиране на етичните стандарти, вградени в чатботове, които се използват от хора с различен произход. С едно бързо натискане на бутон разработчиците могат да зададат законността на въпроси, включително хазарт, евтаназия, сексуална работа, притежание на оръжие, канабис и сурогатно майчинство. „Всичко, което трябва да направят, е да изберат опциите, които отговарят на техните нужди, и след това ще могат да се възползват от услугата на модела, която е съобразена специално с техните ценности“, обясни Чен.

Намирането на такива ефикасни обходни пътища винаги е било културна норма в DeepSeek. В средата на първото десетилетие от новото хилядолетие Лян и приятелите му изучават различни технически специалности в университета в Джъдзян - машинно обучение, обработка на сигнали, електронно инженерство и т.н. - и очевидно за удоволствие (и, знаете, за пари) разработват компютърни програми за търговия с акции по време на световната финансова криза.

След като се дипломира, Лян продължава сам да изгражда системи за квантова търговия, печелейки малко състояние, преди да обедини сили с няколко свои приятели от университета в Ханджоу, където през 2015 г. стартират това, което става известно като High-Flyer Quant.

Първите обяви за работа се хвалят с привличането на най-големите таланти от Google и Facebook и търсят „маниаци“ на тема математика и програмиране с „причудливата гениалност“ на Шелдън, неудобния главен герой от ситкома „Теория за големия взрив“. Те обещават безплатни закуски, столове Herman Miller, покер вечери, офис култура, която се усмихва на тениски и чехли, и, с доза финтех брадър култура, възможността да работите с „очарователни, меко казано момичета, родени през 90-те години“ и „ярка богиня, завърнала се от Уолстрийт“.

Както и в случая с DeepSeek, High-Flyer култивира усещане за мистерия - първата му публикация в социалните мрежи се отнася до Лян само като "г-н Л" - като

същевременно се ангажира с прозрачност от типа „докажи – докажи“. Всеки петък High- Flyer публикува графики на представянето на своите 10 оригинални фонда в китайското суперприложение WeChat. Преди да направи седмичните данни достъпни само за регистрирани инвеститори през лятото на 2016 г., портфейлът е имал средна годишна възвръщаемост от 35%.

Милиарди долари в крайна сметка се вливат в авоарите на High-Flyer, а инвестиционната и изследователската група се увеличава до повече от 100 служители. През 2019 г. Лян започна сериозно набиране на персонал за подразделение за изкуствен интелект, чиято цел е да разработва огромни масиви от данни, за да открива подценени акции, малки колебания на цените за високочестотна търговия и макротенденции, които инвеститорите в отделните индустрии пропускат. До началото на пандемията от Covid-19 той и екипът му изграждат високопроизводителна изчислителна система от свързани помежду си процесори, работещи в тандем - конфигурация, известна като клъстер. За този клъстер High-Flyer заяви, че е закупил 1000 чипа Nvidia 2080Ti - често използвани от геймъри и 3D художници - и още 100 графични процесора от серията Volta. (Графичният процесор Volta, известен още като V100, е първият процесор на Nvidia, оптимизиран за изкуствен интелект.) Докато предишната по-малка изчислителна архитектура на High-Flyer изисква два месеца за обучение на нов модел за икономически анализ, новото оборудване се нуждае от по-малко от четири дни, за да обработи същото работно натоварване.

Тези финансови модели са впечатляващи, но много по-малки от универсалните модели, които изграждат американски операции като OpenAI. Лян настоява за изграждането на значително по-голям суперкомпютър, състоящ се от новите тогава графични процесори A100 на Nvidia, модернизиран наследник на V100. Бивш инженер от High-Flyer, участвал в проекта, казва, че Лян е „най-големият потребител“ на разрастващия се клъстер, като изчислява, че 80 % от компютърната обработка, използвана за разработване на модели, е била възложена на неговото потребителско име. Този бивш инженер казва, че Лян е обсебен от дълбокото обучение, наричайки го „скъпото си хоби“. Влагането на стотици милиони долари в подобна инфраструктура за изкуствен интелект вероятно е било прекомерно за една фирма, но Лян е генерирал повече от достатъчно печалби, за да си го позволи. „Дребни пари за Лян по онова време“, спомня си инженерът. „Повече изчислителна мощност, по-добри модели, повече печалби в търговията.“

Поне такава е надеждата. High-Flyer, която тогава управлява приблизително 14,1 милиарда долара активи, се извинява в писмо до заинтересованите страни от декември 2021 г. за поредицата от разочароващи печалби. Фирмата обвинява за спада своите системи за изкуствен интелект, които според нея са направили умни избори на акции, но не са успели да определят времето за излизане от тези сделки на фона на нестабилността на пандемията. Въпреки това тя решава буквално да удвои разходите си за изкуствен интелект: през януари 2022 г. High-Flyer публикува в социалните медии съобщение, че е натрупала 5000 броя Nvidia A100, всеки от които обикновено струва десетки хиляди долара. През март компанията обяви, че този клъстер се е увеличил до 10 000, само шест месеца преди Nvidia да предупреди, че новите ограничения в САЩ могат да засегнат износа на такива чипове за Китай.

 

Не е ясно каква част от тази инфраструктура в крайна сметка е предназначена за квантова търговия, а не за скъпото хоби на Лян. През пролетта на следващата година, около пет месеца след представянето на ChatGPT от OpenAI, той отделя DeepSeek като независима изследователска лаборатория. В отделни офиси в Ханджоу и Пекин финансите вече не са във фокуса на вниманието. В неподписан манифест, изобилстващ от баналности, High-Flyer обещава да избягва посредствеността и да се справи с най- трудните предизвикателства на революцията на изкуствения интелект. Нейната крайна цел е изкуствен общ интелект. През цялата 2023 г. лабораторията DeepSeek се надпреварва да създаде асистент за кодове с изкуствен интелект, чатбот с общи познания и генератор на текст в 3D-изкуство. Лян привлича инженери от High-Flyer и наема още от пекинския офис на Microsoft и от водещи китайски технологични компании и университети. Бо „Бенджамин“ Лиу, който се присъединява като студент- изследовател през септември, преди да започне докторантура, казва, че Лян често възлага на стажантите ключови задачи, които другаде биха били възложени на старши служители. „Вземете ме за пример: Когато дойдох в компанията, никой не работеше по инфраструктурата на RLHF - инфраструктурата, необходима за поддържане на важна техника, известна като обучение чрез подсилване на човешката обратна връзка – „така че той просто ми позволи да го направ“", казва Лиу. „Той ще ти се довери да правиш неща, които никой не е правил преди.“ (Това доверие е свързано с вторична полза за DeepSeek: Тя плаща на стажантите еквивалента на 140 долара на ден и 420 долара месечна субсидия за жилище - щедро възнаграждение в Китай, но около една трета от това, което стажантите получават в компаниите за изкуствен интелект в САЩ, и малка част от това, което получават инженерите на пълен работен ден в Силициевата долина.)

Според двама бивши изследователи на DeepSeek Лян е заложил много рано на рядкостта - техника за по-ефективно обучение и управление на LLM чрез разделянето им на специалности. Когато задавате въпрос на оригиналния ChatGPT, целият му LLM мозък се активира, за да определи идеалния отговор, независимо дали искате да знаете колко е 2 + 2 или рецепта за пай. За разлика от тях един рядък модел би използвал ресурсите по-добре, като се раздели на „експерти“, а в отговор на всеки конкретен въпрос се активират само съответните.

Оскъдният подход може да доведе до огромни икономии на изчислителни разходи, но става изключително сложен. Ако даден въпрос не се обработва от достатъчно вериги на мозъка или се изпраща до грешните лобове, качеството на отговора ще се влоши. (Математическият мозък би знаел как да използва пи във формула, но не и какво се влага в рецептата за пай, например). Лян вижда напредък в тази област от Google и френския еднорог Mistral, които през декември 2023 г. са пуснали рядък модел, който е разделен на осем експерта, като всяка заявка активира двама от най-подходящите въз основа на контекста. Той мобилизира екипа си да проектира модели с все повече експерти - техника, която е свързана с потенциала за увеличаване на халюцинациите и фрагментиране на знанията на изкуствения интелект. „Това предизвика значителен вътрешен дебат“, казва бившият служител на DeepSeek.

Следват още пробиви, всеки от които е споделен публично и все повече привлича вниманието на китайските конкуренти. След това, в края на 2024 г., DeepSeek пусна V3 - модел на изкуствен интелект с общо предназначение, който е с около 65% по- голям от еквивалента на Meta Platforms и който тогава е най-големият наличен LLM с отворен код. Но именно дългият изследователски документ на V3 наистина привлече вниманието на ръководителите на Google, OpenAI и Microsoft, около месец преди DeepSeek да навлезе в широката консенсусност със своя модел за разсъждение R1. Една шокираща статистика, която изскочи от PDF: DeepSeek посочва, че цялостната разработка на V3 е струвала едва 5,6 милиона долара. Вероятно тази сума се отнася само за последния тренировъчен цикъл - процес на усъвършенстване на данните, който превръща предишните прототипи на модела в завършен продукт, но много хора я възприемат като безумно нисък бюджет за целия проект. За сравнение, кумулативното обучение за най-напредналите гранични модели може да струва 100 милиона долара или повече. Амодей от Anthropic дори прогнозира (преди появата на DeepSeek), че обучението на моделите от следващо поколение ще струва от 10 до 100 милиарда долара за всеки от тях.

Леандро фон Вера, ръководител на изследователската дейност на популярната платформа за изкуствен интелект Hugging Face, която организира класации на магистърските програми, казва, че „архитектурната иновация“ на DeepSeek не е най- забележителното нещо в нейния модел. Най-голямото откритие, което той е направил от нейния изследователски документ, е, че компанията трябва да е разработила висококачествени данни - или умело изчистени от интернет, или извлечени по друг начин, за да може V3 да оживее. „Без много силни набори от данни моделите няма да са достатъчно ефективни“, казва фон Вера. „От доклада става много ясно, че DeepSeek разполага с един от най-добрите набори от данни за обучение на LLM. За съжаление в доклада наборът от данни е разгледан на половин страница от общо 50 страници.“

DeepSeek отбеляза бърз напредък, защото Лян смята, че идеята за отворен код е неразделна част от неговата философия. Той вярва, че скриването на патентовани техники и таксуването на мощни модели - подходът, прилаган от водещите американски лаборатории, включително OpenAI и Google - дава предимство на краткосрочното предимство пред по-трайния успех. Да направи моделите си напълно достъпни за обществеността и до голяма степен безплатни, е най-ефективният начин за DeepSeek да ускори приемането и да накара стартъпи и изследователи да разработват неговите технологии. Надеждата е, че това ще създаде маховик на потребление на продукта и обратна връзка. Както DeepSeek пише в съобщението за първото си публично обявено LLM преди почти две години, цитирайки изобретателя на операционната система с отворен код Linux: „Говоренето е евтино, покажете ми кода.“

В една облачна неделя през април на оживеното международно летище Сяошан в Ханджоу пристигащите посрещат цифрови билбордове, рекламиращи услуги с изкуствен интелект от Alibaba, ByteDance и Huawei. Хуманоиден робот със синя коса посреща пътниците с махане в модерния терминал. Отвън стартъп за автономни превозни средства тества малки самоуправляващи се камиони за превоз на товари по асфалта. При целия шум около DeepSeek западняците сякаш забравят, че това е само един от многото дракони на изкуствения интелект, които се издигат в многобройните еквиваленти на Силициевата долина в Китай. Само в Ханджоу, мегаполис с население от 12,5 милиона души, DeepSeek принадлежи към елитна група технологични стартъпи, известни като Шестте малки дракона. В живописния квартал на Западното езеро се намира Game Science, горещото студио, което стои зад Black Myth: Wukong, бестселър екшън игра, провъзгласена за използваща техники за машинно обучение, за да направи компютърните си герои по-реалистични. Недалеч от него се намират два центъра за роботика и един университет, фокусиран върху 3D-пространствен софтуер. Наблизо се намира и Zhejiang Qiangnao Technology, която е известна като BrainCo и най-добре се разбира като подкрепена от Китай версия на Neuralink Corp.