Как DeepSeek и моделите с отворен код променят AI

DeepSeek предизвика дебат за отворения код в AI и повдигна въпроси за сигурността, иновациите в контекста на геополитическото съревнование САЩ-Китай

12:40 | 4 февруари 2025
Автор: Рейчъл Мец и Сет Фигерман
Снимка: Bloomberg L.P.
Снимка: Bloomberg L.P.

Технологичните компании и академичните среди отдавна се занимават с рисковете и ползите от създаването на софтуер с отворен код. Но треската около генеративния изкуствен интелект придаде ново значение на дебата.

Възходът на китайския стартъп за изкуствен интелект DeepSeek само привлече вниманието към проблема. DeepSeek наскоро пусна модел с отворен код, който според компанията се конкурира със софтуера на най-добрите американски разработчици на изкуствен интелект и твърди, че го е направила за част от разходите за разработка с помощта на по-малко мощен хардуер.

Ето какво трябва да знаете.

Какво е отворен код?

Най-общо казано, отвореният код се отнася до софтуер с изходен код, който е предоставен свободно за използване или модифициране от всеки. Според Инициативата за отворен код (Open Source Initiative - OSI), нестопанска организация със седалище в Калифорния, която се застъпва за ползите от този начин на работа, за да бъде квалифициран като софтуер с отворен код, той трябва да отговаря на специфични условия за разпространение и достъп.

За да може един модел на изкуствен интелект да се счита за наистина отворен, OSI казва, че разработчиците му трябва да предоставят подробна информация за данните за обучение и да дадат възможност на хората да изучават, използват и модифицират системата за всякакви цели.

Обратно, затвореният код се отнася за софтуер и модели, които се контролират от разработчика, не могат да бъдат променяни и предлагат по-малко прозрачност за техническите си характеристики.

Предлагат ли най-добрите софтуерни компании в областта на изкуствения интелект софтуер с отворен код?

Много технологични компании обозначават своя софтуер за изкуствен интелект като софтуер с отворен код; но не всички са съгласни, че всеки от тези софтуерни продукти отговаря на това определение.

Meta Platforms Inc., френският стартъп Mistral, а сега и DeepSeek са пуснали модели на изкуствен интелект, които наричат с отворен код. (OpenAI, въпреки че има „отворен“ в името си, не предоставя отворен код за повечето от моделите си).

Какви са предимствата на отворения код?

Тези, които насърчават софтуера с отворен код, обикновено изтъкват, че той е по-достъпен за потребителите, тъй като няма същите лицензионни такси. По-евтините цени проправят пътя за широкото внедряване на изкуствен интелект, а намалените разходи за разработка насърчават иновациите. Поддръжниците отбелязват също, че този подход повишава отговорността на разработчиците, които създават мощни системи за изкуствен интелект, защото дава възможност на другите да разберат по-добре как работят моделите.

Затворените системи крият риск от създаване на пазар на изкуствен интелект, контролиран от шепа мощни компании. Арън Леви, главен изпълнителен директор на компанията за съхранение на данни в облак Box Inc: „В света на изключително скъпия и патентован изкуствен интелект доставчиците на изкуствен интелект биха могли и вероятно трябва да изберат да запазят цялата печалба за себе си, като по този начин изтласкат възможностите за разработчиците и екосистемата.“

За компании като Meta има допълнителна полза от отворения код: популярността. Чрез разрешаването на други разработчици да имат свободен достъп и да надграждат върху нейния софтуер с отворен код, Meta успя да разшири влиянието си в цялата AI екосистема.

Но често такива модели всъщност са така наречените модели с отворено съдържание. Това означава, че в допълнение към предлагането на модела и може би на част от изходния му код, компаниите разкриват стойностите - т.е. многото числови данни, които моделът е взел и е нагласил по време на процеса на обучение, което позволява на разработчиците да го персонализират по-добре - но не и подробности за данните, които действително са използвани за обучението му.

Meta, например, предлага тегла и част от изходния код за серията си модели за изкуствен интелект Llama, но не предоставя подробна информация за данните за обучение. Meta също така вече е била критикувана от OSI за условията за лицензиране, които включват определени ограничения за търговска употреба.

По подобен начин през януари DeepSeek заяви, че е пуснала най-новата си система, R1, като модел с отворен код, но не предлага код или данни за обучение. Това доведе до въпроси за това какво точно е използвала компанията, за да изгради своя модел.

Какви са рисковете пред отворените системи?

Критиците на софтуера с отворен код твърдят, че той е по-малко сигурен. В случая с изкуствения интелект някои среди в САЩ се опасяват, че използването на подобни модели от геополитически съперници като Китай представлява риск за националната сигурност и застрашава сигурността на гражданите - например чрез събиране на огромни количества потребителски данни, които могат да бъдат използвани за целите на наблюдението. Съществуват и опасения, че американските компании, които предлагат своите модели за изкуствен интелект с различна степен на достъпност, могат да дадат потенциална възможност на съперничещи си държави да ги прилагат, за да се противопоставят на технологичното господство на САЩ.

Защо DeepSeek избра „отворения“ път?

Като възприе по-отворен подход (с някои уговорки), DeepSeek може да облекчи някои опасения сред потребителите в световен мащаб относно строгия контрол на Китай над технологията. Стартъпът също така вероятно е разширил обхвата на своя чатбот на западните пазари, като е улеснил други разработчици да адаптират основната технология, за да посрещнат своите потребности.

С други думи, DeepSeek на практика следва същия наръчник, който Meta използва, за да завладее по-голяма част от екосистемата на изкуствения интелект - факт, който изглежда не е останал незабелязан от главния изпълнителен директор на компанията Марк Зукърбърг.

„Това е огромно геополитическо съревнование, а Китай се бори с него изключително силно“, е заявил Зукърбърг в интервю за  подкаста на Джо Роган. „Ако трябва да има модел с отворен код, който да се използва от всички, би трябвало да се стремим той да бъде американски модел.“

Как работи моделът на DeepSeek?

Подобно на някои от най-новите модели на водещите американски разработчици като OpenAI и Google, R1 на DeepSeek има за цел да възпроизведе начините, по които хората обмислят проблеми, като отделят време за изчисление на отговора, преди да отговорят на запитванията на потребителите. Версията на DeepSeek, която е изградена на базата на един от другите наскоро пуснати модели на компанията - V3, обаче се различава от американските си колеги по своята ефективност.

Екипът, който стои зад нея, е работил иновативно. Докато конкурентите са използвали огромен брой мощни чипове, за да изградят аналогични AI модели, екипът на DeepSeek изглежда е намерил начини да използва ефективно сравнително малкото количество по-малко модерни чипове, до които е имал достъп предвид контрола на САЩ върху износа на най-съвременните модели. И те са се осланяли в голяма степен на техника, известна като обучение с усилване, която възнаграждава системата за даване на правилни отговори и наказва за неправилните.

В САЩ някои технологични и политически лидери признаха тези постижения, като същевременно повдигнаха въпроса дали китайската компания не е създала своя чатбот на базата на западни технологии, като е заобиколила някои от огромните разходи за разработване на големи езикови модели - градивните елементи на чатботовете.

От OpenAI заявиха, че проверяват дали от DeepSeek „може да са дестилирали по неподходящ начин нашите модели“, за да създадат свой собствен конкурентен софтуер. От DeepSeek не са отговорили на коментарите по обвинението.

Какво представлява дестилацията?

Дестилацията се отнася до използването на резултатите от изкуствения интелект на дадена компания за обучение на друг модел - обикновено по-малък и по-малко мощен - който да има подобни възможности. Някои компании, като OpenAI, твърдят, че използването на резултатите от техните модели за изкуствен интелект за обучение на конкурентен модел нарушава техните условия за употреба.

Какво са казват държавните власти за отворения код?

След като извърши анализ, през 2024 г. администрацията на бившия президент Джо Байдън заключва, че би било преждевременно да се налагат ограничения върху моделите на изкуствен интелект с отворен код, но същевременно допуска възможността да има основания за това в бъдеще.

Администрацията на президента Доналд Тръмп все още не е изяснила напълно политиката си по отношение на изкуствения интелект, но някои близки до президента, включително Илон Мъск и вицепрезидентът Джей Ди Ванс, вече са изразили силна подкрепа за софтуера за изкуствен интелект с отворен код.

След вълнението около DeepSeek обаче, отговорникът за изкуствения интелект в Белия дом Дейвид Сакс предполага, че разработчиците от частния сектор може да положат усилия да защитят моделите си от дестилация.