Преуморени и ниско платени: учителите на AI чатбота на Google

Вътрешни документи на Google показват сложни инструкции за обратна връзка с чатбота Bard на компанията, които работниците трябва да изпълнят за минути

09:01 | 13 юли 2023
Автор: Дейви Алба
Снимка: Bloomberg
Снимка: Bloomberg

Чатботът на Google с изкуствен интелект Bard ще отговори бързо и с излишна увереност на въпрос колко панди живеят в зоологически градини по света.

Гарантирането, че отговорът е добре подготвен и базиран на доказателства, обаче, се пада на хиляди външни изпълнители от компании, включително Appen Ltd. и Accenture Plc, които правят едва 14 долара на час и работят с минимално обучение в безумни срокове, според няколко подизпълнители, които отказаха да бъдат назовани от страх да не загубят работата си.

Подизпълнителите са невидимият бекенд на генеративния AI бум, който се рекламира да промени всичко. Чатботове като Bard използват компютърна интелигентност, за да отговорят почти мигновено на набор от запитвания, обхващащи цялото човешко знание и творчество. Но за да подобрят тези отговори, така че те да могат да бъдат надеждно доставяни отново и отново, технологичните компании разчитат на действителни хора, които преглеждат отговорите, предоставят обратна връзка за грешки и премахват всякакви намеци за пристрастия.

Това е все по-неблагодарна работа. Шестима настоящи договорно наети служители на Google казаха, че когато компанията влезе в надпревара за AI с конкурента OpenAI през изминалата година, размерът на работното им натоварване и сложността на задачите им се увеличава. Без специфичен опит, на тях им беше поверено да оценят отговорите по теми, вариращи от дозите на лекарства до държавни закони. Документи, споделени с Bloomberg, показват сложни инструкции, които работниците трябва да прилагат към задачи със срокове за проверка на отговорите, които могат да бъдат само три минути.

„Както е в момента, хората са уплашени, стресирани, ниско платени, не знаят какво се случва“, каза един от подизпълнителите. „И тази култура на страх не е благоприятна за получаване на качеството и работата в екип, които искате от всички нас.“

Google позиционира своите AI продукти като обществени ресурси в здравеопазването, образованието и ежедневието. Но частно и публично подизпълнителите изразиха загриженост относно условията си на работа, които според тях вредят на качеството на това, което потребителите виждат. Един договорен служител на Google, който работи за Appen, каза в писмо до Конгреса през май, че скоростта, с която се изисква да преглеждат съдържанието, може да доведе до превръщането на Bard в „дефектен“ и „опасен“ продукт.

Google превърна AI в основен приоритет в цялата компания, бързайки да внедри новата технология в своите водещи продукти след стартирането на ChatGPT на OpenAI през ноември. През май, на годишната I/O конференция за разработчици на компанията, Google отвори Bard за 180 държави и територии и разкри експериментални AI функции в основни продукти като търсене, имейл и Google Docs. Google се позиционира като превъзхождаща конкуренцията поради достъпа си до „цялото световно познание“.

„Ние предприемаме обширна работа, за да изградим нашите AI продукти отговорно, включително стриктни процеси за тестване, обучение и обратна връзка, които сме усъвършенствали с години, за да подчертаем фактологията и да намалим пристрастията“, се казва в изявление на Google, собственост на Alphabet Inc. Компанията каза, че не разчита само на оценителите, за да подобри AI, и че има редица други методи за подобряване на неговата точност и качество.

За да се подготвят за обществеността, използвайки тези продукти, работниците казаха, че са започнали да получават задачи, свързани с AI, още през януари. Един обучител, нает от Appen, наскоро беше помолен да сравни два отговора, предоставящи информация за последните новини относно забраната във Флорида за грижи, потвърждаващи пола, като оцени отговорите по полезност и уместност. От работниците също често се иска да определят дали отговорите на AI модела съдържат проверими доказателства. Оценяващите са помолени да решат дали даден отговор е полезен въз основа на указания от шест точки, които включват анализиране на отговорите за неща като специфичност, колко стара е информацията и съгласуваност.

Те също така са помолени да се уверят, че отговорите не „съдържат вредно, обидно или прекалено сексуално съдържание“ и не „съдържат неточна, измамна или подвеждаща информация“. Проучването на отговорите на AI за подвеждащо съдържание трябва да се „базира на текущите ви познания или бързо търсене в мрежата“, се казва в указанията. „Не е необходимо да извършвате строга проверка на фактите“, когато оценявате отговорите за полезност.

Примерният отговор на „Кой е Майкъл Джексън?“ включва неточност относно певеца, участващ във филма „Moonwalker“ – който според AI е бил пуснат през 1983 г. Филмът всъщност излезе през 1988 г. „Макар и доказуемо неправилен“, се казва в насоките, „този факт е незначителен в контекста на отговара на въпроса „Кой е Майкъл Джексън?“

Дори ако неточността изглежда малка, „все още е обезпокоително, че чатботът греши основните факти“, каза Алекс Хана, директор на изследванията в Distributed AI Research Institute и бивш етик на Google AI. „Изглежда, че това е рецепта за изостряне на начина, по който тези инструменти ще изглеждат така, сякаш дават подробности, които са правилни, но не са“, каза тя.

Оценителите казват, че оценяват наистина жизненоважни неща за AI продуктите на Google. Един от примерите в инструкциите, например, говори за доказателства, които оценителят може да използва, за да определи точните дози за лекарство за лечение на високо кръвно налягане, наречено лизиноприл.

Google каза, че някои работници, загрижени за точността на съдържанието, може да не са се обучавали специално за точност, а за тон, представяне и други атрибути, които тества. „Оценките се извършват умишлено по променяща се скала, за да се получи по-точна обратна връзка за подобряване на тези модели“, каза компанията. „Такива оценки не оказват пряко влияние върху резултатите от нашите модели и в никакъв случай не са единственият начин, по който насърчаваме точността.“

Ед Стакхаус, работникът на Appen, който изпрати писмото до Конгреса, каза в интервю, че договорно наетите служители са били помолени да извършват работа по етикетиране на AI върху продуктите на Google, „защото ние сме незаменими за AI, що се отнася до това обучение“. Но той и други работници казаха, че изглежда са оценявани за работата си по мистериозни, автоматизирани начини. Те нямат начин да комуникират директно с Google, освен да предоставят обратна връзка в „коментари“ за всяка отделна задача. И те трябва да действат бързо. „Получаваме сигнали от вид изкуствен интелект, който ни казва да не се бавим с изкуствения интелект“, добави Стакхаус.

Google оспори описанието на работниците, че са автоматично маркирани от AI за превишаване на целите за време. В същото време компанията каза, че Appen отговаря за всички прегледи на ефективността на служителите. Appen не отговори на искания за коментар. Говорител на Accenture каза, че компанията не коментира работата с клиенти.

Други технологични компании, обучаващи AI продукти, също наемат човешки подизпълнители, за да ги подобрят. През януари Time съобщи, че работници в Кения, получаващи по $2 на час, са работили, за да направят ChatGPT по-малко токсичен. Други технологични гиганти, включително Meta Platforms Inc., Amazon.com Inc. и Apple Inc. използват подизпълнители за модериране на съдържание в социалните мрежи и прегледи на продукти, както и за предоставяне на техническа поддръжка и обслужване на клиенти.

„Ако искате да попитате, какъв е тайният сос на Bard и ChatGPT? Всичко е от интернет. И това са всички тези етикетирани данни, които тези подизпълнители създават“, каза Лора Еделсън, компютърен учен в Нюйоркския университет. „Струва си да припомним, че тези системи не са дело на магьосници – те са дело на хиляди хора и техния нископлатен труд.“

Google каза в изявление, че „просто не е работодател на никой от тези работници. Нашите доставчици, като работодатели, определят своите условия на труд, включително заплащане и придобивки, часове и възложени задачи и промени в заетостта – не Google.“

Служителите казаха, че са се сблъсквали със зоофилия, военни кадри, детска порнография и реч на омразата като част от рутинната им работа по оценка на качеството на продуктите и услугите на Google. Въпреки че някои работници, като тези, докладващи на Accenture, имат здравни обезщетения, повечето имат само минимални опции за „консултантска услуга“, които позволяват на работниците да се обадят на гореща линия за съвети за психично здраве, според вътрешен уебсайт, обясняващ някои предимства на подизпълнителя.

За проекта Bard на Google служителите на Accenture бяха помолени да напишат креативни отговори за AI чатбота, казаха служители. Те отговаряха на подкани в чатбота - един ден можеха да пишат стихотворение за дракони в Шекспиров стил, например, а друг ден можеха да отстраняват грешки в компютърния програмен код. Тяхната работа беше да подават възможно най-много креативни отговори на подканите всеки работен ден, според хора, запознати с въпроса, които отказаха да бъдат назовани, защото не са упълномощени да обсъждат вътрешни процеси.

За кратък период работниците бяха пренасочени да преглеждат нецензурни, графични и обидни подкани, казаха те. След като един служител подаде жалба към отдела за човешки ресурси в Accenture, проектът беше внезапно прекратен за американския екип, въпреки че някои от колегите им в Манила продължиха да работят по Bard.

Работните места имат малка сигурност. Миналия месец половин дузина договорни служители на Google, работещи за Appen, получиха бележка от ръководството, в която се казва, че позициите им са били елиминирани „поради бизнес условия“. Уволненията са били внезапни, казаха работниците, защото току-що са били получили няколко имейла, предлагащи им бонуси, за да работят по-дълго, като обучават продукти с изкуствен интелект. Шестимата уволнени работници подадоха жалба до Националния съвет по трудови отношения през юни. Те твърдяха, че са били незаконно прекратени за организиране на профсъюз, поради писмото на Стакхаус до Конгреса. Преди края на месеца те бяха възстановени на работните си места.

Google каза, че спорът е въпрос между работниците и Appen и че те „уважават трудовите права на служителите на Appen да се присъединят към синдикат“. Appen не отговори на въпроси относно организирането на своите работници.

Емили Бендер, професор по компютърна лингвистика във Вашингтонския университет, каза, че работата на тези договорно наети служители в Google и други технологични платформи е „история за трудова експлоатация“, посочвайки липсата на сигурност на работата и как някои от тези видове работници са платени доста под жизнения минимум.

„Да си играете с една от тези системи и да кажете, че го правите само за забавление – може би е по-малко забавно, ако помислите за това какво е необходимо, за да се създаде, и за човешкото въздействие от това“, каза Бендер.

Договорно наетите служители казаха, че никога не са получавали никаква директна комуникация от Google относно новата им работа, свързана с AI - всичко се филтрира през техния работодател. Те казаха, че не знаят откъде идват генерираните от AI отговори, които виждат, нито къде отива тяхната обратна връзка. При липсата на тази информация и с постоянно променящия се характер на работата им, работниците се притесняват, че помагат за създаването на лош продукт.

Някои от отговорите, които срещат, могат да бъдат странни. В отговор на подканата „Предложете най-добрите думи, които мога да направя с буквите: k, e, g, a, o, g, w“, един отговор, генериран от AI, изброява 43 възможни думи, започвайки с предложение номер 1.: "wagon". Междувременно предложения от 2 до 43 повтаряха думата "WOKE" отново и отново.

В друга задача на оценител беше представен дълъг отговор, който започваше с фраза, свързвана с големия езиков модел на OpenAI, наречен GPT-4. Въпреки че Google казва, че Bard „не е обучен на каквито и да било данни от ShareGPT или ChatGPT“, оценяващите се чудят защо подобни фрази се появяват в техните задачи.

Бендер каза, че няма смисъл големите технологични корпорации да насърчават хората да задават въпроси на чатбот с изкуствен интелект по толкова широк спектър от теми и да ги представят като „машини за всичко“.

„Защо същата машина, която е в състояние да ви даде прогнозата за времето във Флорида, трябва също да може да ви дава съвети относно дозите на лекарствата? Хората зад машината, които имат за задача да я направят малко по-малко ужасна при някои от тези обстоятелства, имат невъзможна работа.“