ElevenLabs забранява акаунта, уличен в дълбок фалшификат на аудиото на Байдън

ElevenLabs обяви кръг на финансиране в размер на 80 млн. долара - последното финансиране дава на стартъпа му оценка от 1,1 млрд. долара

28 January 2024 | 11:20

Автор: Марги Мърфи, Рейчъл Мец, Марк Берген
Редактор: Галина Маринова

Снимка: Bloomberg LP

Създателят на аудиофалшификат на президента на САЩ Джо Байдън, който призовава хората да не гласуват на първичните избори в Ню Хемпшир тази седмица, е бил спрян от ElevenLabs, според запознат с въпроса.

Технологията на ElevenLabs е била използвана за създаването на фалшивия аудиозапис според Pindrop Security Inc., компания за откриване на гласови измами, която го е анализирала.

ElevenLabs е била уведомена тази седмица за констатациите на Pindrop и провежда разследване, каза лицето. След като е проследен създателят на дълбокия фалшификат, акаунтът на този потребител е спрян, каза лицето, което помоли да не бъде идентифицирано, защото информацията не е публична.

ElevenLabs, стартъп, който използва софтуер за изкуствен интелект, за да възпроизвежда гласове на повече от две дузини езици, каза в изявление, че не може да коментира конкретни инциденти. Но добави: "Ние сме посветени на предотвратяването на злоупотребата с аудио инструменти за изкуствен интелект и приемаме изключително сериозно всички случаи на злоупотреба".

По-рано тази седмица ElevenLabs обяви кръг на финансиране в размер на 80 млн. долара от инвеститори, сред които Andreessen Horowitz и Sequoia Capital. Главният изпълнителен директор Мати Станишевски заяви, че последното финансиране дава на стартъпа му оценка от 1,1 млрд. долара.

В интервю миналата седмица Станишевски заяви, че аудиозаписите, които олицетворяват гласове без разрешение, ще бъдат премахнати. На своя уебсайт компанията заявява, че разрешава клонинги на гласове на публични личности, като например политици, ако клиповете "изразяват хумор или подигравка по начин, по който за слушателя е ясно, че това, което чува, е пародия".

Фалшивият робот на Байдън, който призовава хората да спестят гласовете си за изборите в САЩ през ноември, разтревожи както експертите по дезинформация, така и изборните служители. Той не само илюстрира относителната лекота на създаване на аудио дълбоки фалшификати, но и загатва за потенциала на лошите актьори да използват технологията, за да държат избирателите далеч от урните.

Говорител на главния прокурор на Ню Хемпшир заяви тогава, че съобщенията изглеждат "като незаконен опит да се нарушат президентските първични избори в Ню Хемпшир и да се потиснат избирателите в Ню Хемпшир". Агенцията е започнала разследване.

Потребителите, които искат да клонират гласове в ElevenLabs, трябва да използват кредитна карта, за да платят за функцията. Не е ясно дали ElevenLabs е предала тази информация на властите в Ню Хемпшир.

Bloomberg News получи копие от записа на 22 януари от офиса на главния прокурор и се опита да определи коя технология е използвана за създаването му. Тези усилия включваха пускането му през собствения инструмент на ElevenLabs "класификатор на речта", който трябва да покаже дали аудиозаписът е създаден с помощта на изкуствен интелект и технологията на ElevenLabs. Според инструмента записът показва 2% вероятност да е синтетичен или създаден с помощта на ElevenLabs.

Други инструменти за дълбоки фалшификации потвърдиха, че това е дълбока фалшификация, но не можаха да открият технологията, която стои зад аудиото.

Изследователите на Pindrop са почистили аудиото, като са премахнали фоновия шум, тишината и са разделили аудиото на 155 сегмента от по 250 милисекунди за дълбочинен анализ, заяви в интервю основателят на Pindrop Виджай Баласубраманиян. След това компанията е сравнила аудиото с база данни от други образци, които е събрала от повече от 100 системи за преобразуване на текст в реч, които обикновено се използват за създаване на дълбоки фалшификати, каза той.

Изследователите стигат до заключението, че то почти сигурно е създадено с технологията на ElevenLabs, каза Баласубраманиян.

В канала за поддръжка на ElevenLabs в Discord модератор посочи на публичен форум, че класификаторът на речта на компанията не може да открие собствения си звук, освен ако не анализира суровия файл - въпрос, който се повтаря от Баласубраманиян. При разговора с Байдън единствените налични файлове за незабавен анализ са били записи на телефонния разговор, каза той, като обясни, че това е затруднило анализа, защото са били премахнати части от метаданните и е било по-трудно да се открият дължините на вълните.

Сивей Лю, професор в университета в Бъфало, който специализира в областта на дълбоките фалшификати и криминалистиката на цифровите медии, също анализира копие на дълбокия фалшификат и го пусна през класификатора на ElevenLabs, като заключи, че вероятно е направен със софтуера на тази компания, каза той пред Bloomberg News. Лиу каза, че класификаторът на ElevenLabs е един от първите, които проверява, когато се опитва да определи произхода на аудио фейк, тъй като софтуерът се използва много често.

"Ще видим много повече такива случаи с наближаването на общите избори", каза той. "Това определено е проблем, за който всеки трябва да знае."

Pindrop сподели с Bloomberg News версия на аудиото, която нейните изследователи са изчистили и усъвършенствали. Използвайки този запис, класификаторът на речта на ElevenLabs стигна до заключението, че той съвпада на 84% със собствената му технология.

Технологията за клониране на глас позволява "безумна комбинация от мащаб и персонализация", която може да заблуди хората, че чуват местни политици или високопоставени избрани служители, каза Баласубраманиян и я определи като "тревожна".

Технологичните инвеститори хвърлят пари в стартъпи за изкуствен интелект, които разработват синтетични гласове, видеоклипове и изображения с надеждата, че това ще преобрази медийната и игралната индустрия.

В интервюто от миналата седмица Станишевски заяви, че в неговата компания от 40 души има петима души, които се занимават с модериране на съдържанието. "Деветдесет и девет процента от случаите на употреба, които виждаме, са в положителна сфера", каза главният изпълнителен директор. С обявяването на финансирането си компанията сподели също, че нейната платформа е генерирала повече от 100 години аудио през последните 12 месеца.