Залогът на AI на стойност $344 млрд. за „езиков модел” изглежда нестабилен
Може ли един новаторски подход към изкуствения интелект да срине внезапно всички капитали, инвестирани в технологията на чатботовете?
Редактор: Галина Маринова
Всеки инвеститор знае, че не трябва да слага всичките си яйца в една кошница. Защо тогава Силициевата долина залага само на един начин за изграждане на изкуствен интелект?
Тази година четирите най-големи технологични компании в света ще похарчат 344 милиарда долара за изкуствен интелект, предимно за центрове за данни, използвани за обучение и работа с т.нар. големи езикови модели (LLM) като ChatGPT, които могат да обработват текстово, аудио и визуално съдържание. Технологията се основава до голяма степен на същата техника за предсказване на символите, които следва да се появят в дадена последователност.
Разходите им, разбира се, не са напразни. Чатботовете за лично ползване вече се разрастват бързо, като някои стартиращи компании в областта на изкуствения интелект започват да достигат прага на рентабилност, а други все още са в ранните етапи на развитие на бизнеса си с генеративен изкуствен интелект. Големите езикови модели представляват първата техника за изкуствен интелект, която постига масова употреба в огромни мащаби: например, повече от 700 милиона души използват ChatGPT всяка седмица.
Но историята е пълна с хора, които са се фиксирали върху един-единствен „печеливш“ подход към технологиите, само за да изостанат, когато ситуацията внезапно се промени. Помислете за отдадеността на BlackBerry към физическата клавиатура, преди Apple Inc. да я смаже с сензорните екрани, или за големия залог на Yahoo на порталите, докато Google тихо доминираше в търсенето.
Може ли един новаторски подход към изкуствения интелект да срине внезапно всички капитали, инвестирани в технологията на чатботовете? Може би. Китайската компания DeepSeek даде представа за това как неконвенционалните подходи могат да изненадат пазара, когато през януари пусна по-малък и по-ефективен модел и публикува чертежите му в интернет.
Моделът на DeepSeek беше LLM, но неговият метод показа, че всички ресурси, които се инвестират днес в изследвания в областта на изкуствения интелект, създават вълна, която може да повдигне и други лодки. През историята си изкуственият интелект е напредвал, съчетавайки минали познания с нови идеи, и стремежът към супер интелигентни машини може да изисква не по-малко.
Голяма част от това проучване сега се извършва в места като Covariant, стартираща компания от района на залива, която разработва софтуер, който помага на машините да възприемат заобикалящото ги пространство, вместо да пресяват модели в данните. Компаниите, фокусирани върху роботиката и дроновете, откриването на лекарства или моделирането на климата, са тези, които по естествен начин са се дистанцирали от обсесията с езиковите модели, защото техните технологии трябва да реагират на условията на физическия свят в реално време.
Atman Labs, британски стартъп, черпи идеи от периода преди появата на дълбокото обучение, които „също са били важни, но са били забравени“, според съоснователя Сумон Саду. Тяхната пътека напомня на дългогодишните усилия на Google DeepMind да създаде супер интелигентна изкуствена интелигентност по различни начини – от AI системи за игри като AlphaGo до техника, базирана на симулации, наречена усилващо обучение – преди пускането на ChatGPT да пренасочи целия фокус на компанията към големи езикови модели.
Сега в тезата за големите езикови модели се появяват някои пукнатини, от огромните разходи до перспективата за намаляваща възвръщаемост. Най-новите модели на OpenAI или Google са само малко по-добри от по-старите, въпреки че в тяхното разработване се инвестират все повече средства. Халюцинациите не са изчезнали, което затруднява пътя към внедряването им в компаниите в областта на здравеопазването или правния анализ.
Неотдавнашно проучване в Nature също показва, че способностите за социално разсъждение на езиковите модели – способността да разберат какво наистина имат предвид хората в разговора – зависят от изключително малък набор от характеристики на модела и че малки промени могат да ги нарушат. Това повдига фундаментални въпроси относно надеждността. Във връзка с това OpenAI призна миналия месец, че защитните механизми на ChatGPT за уязвими хора могат да се провалят по време на дълги разговори. Това разкритие дойде, след като ботът даде инструкции за самонараняване на тийнейджър.
Някои от по-изявените фигури в технологичния сектор посочиха недостатъците.
„Силициевата долина напълно се провали с превъзнасянето на LLM“, заяви главният изпълнителен директор на Palantir Technologies Inc. Алекс Карп на конференцията за изкуствен интелект миналата седмица. Ян ЛеКун, главен учен по изкуствен интелект в Meta Platforms Inc., отдавна твърди, че големите езикови модели са „задънена улица“ за по-умните машини, защото те не разбират физическото си обкръжение и не планират предварително. Те са просто „генератори на символи“, предупреждава той.
LLM няма да изчезнат, но историята на пазарите показва опасността от влюбването в едно единствено решение. Инвеститорите и бизнеса трябва да останат нащрек за технически пробиви и да бъдат готови за промени. В технологиите това може да се случи – и често се случва – преди някой да го очаква.