Духът в машината не трябва да бъде AI

Моделите на AI често се описват като черни кутии, така че какво се случва, когато една черна кутия обучава друга? Новата система ще има отклонения, които ще стават все по-трудни за засичане

21:00 | 19 юни 2023
Автор: Парми Олсън
Снимка: Bloomberg LP
Снимка: Bloomberg LP

Някога, през XVIII в., една фантастична машина за игра на шах, известна като "Механичния турчин", била изложена по целия свят и зашеметила публиката със способността си да побеждава опитни играчи и държавни глави като Наполеон Бонапарт. Години по-късно се оказва, че необикновените постижения на машината са били възможни само защото в нея се е криел човек, който е правил всички ходове. 

Днес подобен феномен се случва зад кулисите при разработването на изкуствен интелект: Хората маркират голяма част от данните, използвани за обучението на моделите на изкуствения интелект, и често се грижат за тези модели и в естествени условия, което означава, че съвременните машини не са толкова напълно автоматизирани, колкото си мислим. И все пак сега идва един обрат в историята: Някои от тези хора зад кулисите обучават нов изкуствен интелект със стар изкуствен интелект.  

Моделите на AI често се описват като черни кутии, така че какво се случва, когато една черна кутия обучава друга? Новата система става още по-трудна за проверка. Тя може да направи отклоненията в тези системи още по-устойчиви.

Ново проучване на учени от швейцарската EPFL показва, че работниците в MTurk на Amazon.com Inc. - платформа за работа чрез краудсорсинг, кръстена на оригиналния механичен тюрк - са започнали да използват ChatGPT и други големи езикови модели, за да автоматизират работата си. Изследователите твърдят, че 33-46% от тях използват инструментите на изкуствения интелект при изпълнението на задачите си.

Обикновено компаниите и академичните среди наемат работници на MTurk заради способността им да правят неща, които компютрите не могат, като например да поставят етикет на изображение, да оценяват реклама или да отговарят на въпроси от анкета. Работата им често се използва за обучение на алгоритми, които да правят неща като разпознаване на снимки или разчитане на касови бележки. 

Почти всички задачи в MTurk се заплащат на малки суми. Шери Стенли от Западна Вирджиния, която доскоро е работила в MTurk в продължение на повече от седем години, казва, че е виждала заявители, които предлагат да платят само 50 цента за три параграфа писмена работа. Ако използват специализиран софтуер за ускоряване на задачите си, хората, които работят в MTurk, могат да увеличат почасовите си възнаграждения от 3 до около 30 долара. 

Проблемът с използването на ChatGPT обаче е, че той не просто оптимизира работата, а я върши.

Последствията са няколко. Например, това поведение засяга около 250 000 души, предимно в САЩ, за които се смята, че работят в платформата MTurk. "Работещите измамници могат просто да се възползват от цялата система", казва Стенли. "И тогава добрите работници са тези, които понасят последствията."

Фирмите, които наемат тюрки, им плащат в зависимост от броя на задачите, които изпълняват, и от качеството на работата им. Ако някои от тях извършват работа по-бързо благодарение на софтуер, който имитира човешките им способности, това оказва по-голям натиск върху работниците на MTurk да увеличат скоростта и резултатите си като цяло - нещо, което вероятно ще изпитат и други специалисти при навлизането на генеративния AI.  

Друга последица е изкривяването на резултатите за академичните изследователи, които използват MTurk за провеждане на проучвания, и за компаниите, които наемат работници на MTurk, за да помагат за обучението на системи за AI. Ако в тези процеси се влага по-малко човешки принос, тогава алгоритмите и научните изследвания, които използват краудсорсинг, ще получат по-изкривено отражение на реалността.   

"Човешките данни са от огромно значение", казва Вениамин Веселовски, автор на научния труд на EPFL. "Психологията, компютърните социални науки, социологията - всички те зависят от тях, за да разберат по-добре "нас". 

Ако повече crowd работници използват ChatGTP, те също ще допринесат за нарастването на синтетичното съдържание, получено от изкуствен интелект, което навлиза в мрежата. Големите езикови модели, разработени от компании като OpenAI и Google, са готови да играят по-голяма роля в нашата така наречена информационна екосистема, добавяйки се към нарастващите количества синтетични данни, които компаниите произвеждат, за да обучават моделите на AI.

Като цяло това ще направи интернет потенциално по-объркващо място за опознаване на света. Между ботовете в Twitter и рекламите, генерирани от AI, става все по-трудно да се намери съдържание в интернет, което да идва от истински, живи хора. Тази промяна заплашва да засили предразсъдъците, за които се знае, че са заложени в някои езикови модели и системи за изкуствен интелект.   

"Това отваря редица етични въпроси", казва Веселовски. "Тези модели могат да представят специфични гледни точки, мнения и идеологии. Това може да доведе до липса на разнообразие в моделите, които обучаваме." 

С други думи, ако пристрастни системи за изкуствен интелект обучават други системи за изкуствен интелект, ще се окажем в примка от съмнителна информация, чийто произход става все по-труден за разшифроване. Хората, които работят зад кулисите на изкуствения интелект, са неразделна част от неговото развитие, но би било добре, ако те могат да останат хора възможно най-дълго.