Стартъп стои в центъра на бума на фалшивите аудиозаписи

Технологията на ElevenLabs се използва за пародия на политици и за реклама на подвеждащи продукти

09:00 | 10 май 2024
Обновен: 19:17 | 13 май 2024
Снимка: Bloomberg LP
Снимка: Bloomberg LP

Джордан Хаулет е на 26 години, има 24 милиона последователя в Instagram, TikTok и YouTube и много внимава с кои марки работи. Има подписани договори с Domino’s Pizza, Google и WingStop и си изкарва прехраната с видеа от рода на „как да отваряме буркани като професионалисти“ или най-добрия начин „да ядем правилно купичка Chipotle”. Ето защо се уплашил, когато започнал да получава съобщения, в които го питат защо рекламира предполагаемо лекарство срещу слепота във Facebook и Instagram.

Хаулет отворил един от линковете към видеата, които му изпратили и с ужас чул как глас, досущ като неговия, описвал как „водещи кеймбриджки учени“ открили ритуал с трайност само седем секунди, който осигурява перфектно зрение. Видеото било с лошо качество и представлявало колаж от архивни изображения на рентгенови снимки на мозъка и на хора на средна възраст, които накривени се взират в телефоните си. Но аудиото било напълно убедително, по думите на Хаулет, който разказва: „Бях ужасен, когато чух собствения си глас. Теоретично може да ме накарат да кажа всякакви неща“.

Експертите по киберсигурност предупреждават за такива манипулации от години. Става дума за изкуствено генерирано или променено медийно съдържание, което минава за автентично. Повече притеснение предизвикват изображенията и видеата, но през последната година стана ясно, че фалшивите аудиозаписи, познати също като клониране на глас, представляват по-непосредствена заплаха. Основателят на агенцията за засичане на измами Pindrop Виджай Баласубраманиян заявява, че неговата компания вече е открива атаки над банкови потребители, в които измамниците използват изкуствено аудио, за да се представят за титулярите на сметките в обаждания до центровете за обслужване на клиенти на банката.

Друг притеснителен аспект е политическата манипулация, каквато се случила например в Ню Хемпшиър. 20 хиляди гласоподаватели получили телефонно обаждане от човек, който се представял за президента Джо Байдън, настоявайки да не гласуват за него на следващия ден. На пръв поглед тази случка не предизвикала никакъв практически резултат. Байдън дори все още не бил вписан в бюлетината, но въпреки това спечелил с голямо мнозинство с кампания за преференциално гласуване чрез самостоятелно вписване на името му. При всички положения обаче този инцидент засилва страха от ролята, която такива технологии могат да изиграят на изборите, предстоящи през тази година. На 8 февруари Федералната комисия по далекосъобщенията забрани автоматичните телефонни кампании, които използват ИИ.

Според Pindrop, видеото, в което се чува гласът на Хаулет, е създадено чрез обработка на записи на неговата собствена реч, вероятно взети от видеата му в YouTube и Instagram, със софтуер за клониране на гласа, разработен от стартъп компанията ElevenLabs. Технологията на ElevenLabs позволява на потребителя да създаде реч с гласа на записания, която звучи зловещо убедително.

ElevenLabs е основана преди две години от двама приятели от детските години: бившият стратег по приложението в Palantir Technologies Inc. Мати Станишевски и бившият инженер на Google по машинно обучение Пьотър Дабковски. Двамата са израснали в Полша с холивудските филми, дублирани на полски с изключително ниско качество. Оттам им хрумва, че ИИ може да предпази днешните деца от подобни преживявания. Друга тяхна идея за употребата на тези инструменти е разказване на уроци онлайн или четене на аудиокниги, или дори превод на разговор в реално време.

Тази идея превърнала ElevenLabs в един от най-модерните стартъпи в индустрията на генеративния ИИ. Не става дума просто за единствената достъпна услуга за клониране на глас, а за истинско изстрелване в орбитата. Сред инвеститорите на ElevenLabs се нареждат имена като Andreessen Horowitz, Smash Capital и съоснователят на DeepMind Мустафа Сюлейман. Последният етап на финансиране, осъществен през януари, вдигна оценката на компанията на 1,1 милиарда долара. Хора, които познават ElevenLabs отвътре, твърдят, че мениджмънтът на компанията не иска продуктът й да създава измамна интернет реклама или материали за потискане на гласоподаватели. Но както често се случва в света на успешните интернет стартъпи, инструментите на компанията се разпространяват по-бързо, отколкото тя успява да развие защитни механизми срещу злоупотреба.

Малко след като през януари 2023 г. е пуснат инструмент, който позволява клонирането на глас от съвсем кратък аудио запис, от ElevenLabs заявиха, че „се увеличават случаите на злоупотреба с клонирането на глас“.

Представянето за известни хора поставя ElevenLabs пред морална дилема. Още през 1988 г. апелативният съд е постановил, че звездите имат право да забранят комерсиалната употреба на уникални техни характеристики като гласа им, без да са дали предварително разрешение за това. ElevenLabs започна да събира абонамент от 1 долар месечно за инструмента за клониране на глас, който преди се предлагал безплатно, за да намали злоупотребите. Тази стъпка не направи създаването на фалшиво аудио съдържание недостъпно от финансова гледна точка, но въведе нуждата всеки потребител да регистрира проследимо платежно средство като кредитна карта, което би могло да спре някои от злоумишлените намерения и да подпомогне правоприлагането.

От ElevenLabs казват, че отказват „коментар за конкретни инциденти, но ще взимат подходящите мерки, когато бъдат уведомени за съдържание, което нарушава правилата им“. В интервю за Bloomberg News през януари Станишевски казва, че почти цялата употреба на технологията на компанията е легитимна, както и че ElevenLabs може да проследи какви фрази са създавани от потребителите с клонирането на глас. Той допълва: „Поставяме на първо място усилията в посока сигурност“.

Правилата за употреба на ElevenLabs забраняват „измамно или подвеждащо клониране на глас“, както и „съдържание, което подстрекава към насилие или разпространява омраза“. Но от компанията признават: „не наблюдаваме проактивно съдържанието по нашите услуги“.

Пет от четиридесетте служители на ElevenLabs се занимават с доверие и сигурност. Според експертите, е почти невъзможно да спрем хората, които създават проблематично съдържание посредством отворени и достъпни инструменти с генеративен ИИ. Технологичните компании като цяло се опитват да предотвратят около 90% от опасните действия, по думите на общностния мениджър Мохамед Абдихаким Мохамед, който е работил по ограничаване на съдържанието в различни софтуерни компании. Според него, стартъпите „всъщност не могат да предотвратят вредите от технология за клониране на глас, която е толкова достъпна“.

Роботното обаждане уж от Байдън показва границите на опитите на ElevenLabs да поставят технологични ограничения. Компанията предлага инструмент, който нарича „класификатор на речта“ и за който твърди, че може да прецени дали даден аудиозапис е изкуствено синтезиран, или не, и кои конкретни клипове са създадени с нейния софтуер. Bloomberg Businessweek и Pindrop изпробваха инструмента на ElevenLabs, за да проверят един от записите на Байдън, и според технологията, той не беше фалшификат. Подобни инструменти, предлагани от други компании, стигнаха до противоположно заключение, а след като фоновият шум на записа беше отстранен, собственият инструмент на ElevenLabs прецени, че в крайна сметка е използвана технологията на компанията.

Променящата се оценка показва, че инструментите за проверка на фалшиво съдържание губят надеждност, когато версията на съдържанието се отдалечи от източника. Създателите на записи могат да добавят шум или други изкривявания, за да объркат тези инструменти. Едно от фалшивите видеа на Хаулет е гледано от около 121 хиляди потребителя и той се притеснява, че феновете му може да са изложени на риск от измама.

Така стигаме до изборите през 2024 г. Създателите на фалшиво съдържание изследват активно различни възможности. Един от тях е Самин Ясар, автор в YouTube и основател на AI Answers – услуга, която разработва употребата на записи, създадени с ИИ, за да заместят кол центровете. През януари Ясар публикува видео, в което разказва, че по поръчки, свързани с две политически кампании, е клонирал гласове, използвайки ElevenLabs.

Вдъхновил се за видеото в разговор с Адам Уинс, предприемач в бизнеса със солариуми, който основал т.нар. Печеливш метод, който предлага съвети за живота и хапчета за отслабване. Уинс попитал Ясар дали може да създаде масивна автоматична телефонна кампания, за да събере електорална информация от гласоподавателите. Обяснението било, че познавал хора, които биха използвали такава технология.

За да докаже концепцията си, Ясар използвал ElevenLabs, за да клонира гласа на изпълнителния директор на MyPillow Майк Линдъл, десен политически активист, съден за 1,3 мириарда долара от компанията за машини за гласуване Dominion Voting Systems Inc. във връзка с фалшиви обвинения около президентските избори от 2020 г. Записът, създаден по генериран от ChatGPT сценарии, според образец, до който Businessweek получи достъп, гласи следното: „Твърдо вярвам, че системите за гласуване трябва да бъдат обстойно изследвани, за да се гарантира прозрачност. Ще положа усилия да разследвам нередностите“.

Ясар качил записа на услуга за автоматично набиране. Фалшифицираният Линдъл можел да отговаря на въпроси и коментари на гласоподавателите по начин, подобен на автоматичните услуги за обслужване на клиенти.

Уинс твърди, че е предложил идеята на Линдъл и на бившия кандидат за губернатор на Минесота от Републиканската партия Скот Йенсен, който претърпя критики за разпространение на фалшива информация за Covid-19. Те не му отговорили и той изоставил идеята, споделяйки че започнал да се притеснява от евентуални правни последици. От техническа гледна точка обаче, нищо не можело да го спре. --- Марги Мърфи, заедно с Марк Берген.

В ЗАКЛЮЧЕНИЕ Злонамерени актьори използват аудиотехнологията на ElevenLabs и залозите в тази посока ще се вдигат с приближаването към изборите през 2024 г.