AI боклуците започват да замърсяват интернет

Онлайн издателите са залети с безполезни предложения за статии, a уебсайтовете, използващи генерирано от AI съдържание, се умножават. Това може да се превърне в проблем за самите AI модели

14:00 | 15 юли 2023
Обновен: 22:15 | 19 юли 2023
Автор: Даниел Николов
Снимка: Zhenyu Luo/Unsplash
Снимка: Zhenyu Luo/Unsplash

Когато за първи път чува за човешките езикови умения на чатбота с изкуствен интелект ChatGPT, Дженифър Стивънс се чуди какво би означавало това за списанието за пенсионери, което редактира.

Месеци по-късно тя има по-добра идея. Това означава, че тя прекарва много време във филтриране на безполезни предложения за статии.

Хора като Стивънс, изпълнителен редактор на International Living, са сред онези, които виждат нарастващо количество съдържание, генерирано от изкуствения интелект (ИИ), което е толкова под техните стандарти, че го смятат за нов вид спам, пише The Wall Street Journal.

Технологията подхранва инвестиционен бум. Тя може да отговаря на въпроси, да създава изображения и дори да пише есета въз основа на прости задания. Някои от тези техники обещават да подобрят анализа на данни и да премахнат ежедневните задачи за писане, точно както калкулаторът промени математиката. Но те също така показват потенциала за генериран от AI спам да нарасне и потенциално да се разпространи в интернет.

В началото на май компанията за рейтинг на новинарски сайтове NewsGuard откри 49 фалшиви новинарски уебсайта, които използват ИИ за генериране на съдържание. До края на юни броят им достигна 277, според Гордън Кровиц, съосновател на компанията.

„Броят нараства експоненциално“, каза Кровиц. Изглежда, че сайтовете са създадени, за да правят пари чрез рекламната онлайн мрежа на Google, посочва още Кровиц, бивш колумнист и издател в The Wall Street Journal.

Изследователите също така посочват потенциала на технологиите с изкуствен интелект, използвани за създаване на политическа дезинформация и насочени съобщения, използвани за хакване. Компанията за киберсигурност Zscaler казва, че е твърде рано да се каже дали ИИ се използва от престъпниците по широко разпространен начин, но компанията очаква да го види да се използва за създаване на висококачествени фалшиви фишинг уеб страници, които са предназначени да подмамят жертвите да изтеглят зловреден софтуер или да разкрият онлайн потребителските си имена и пароли.

В YouTube златната треска на ChatGPT е в разгара си. Десетки видеоклипове, предлагащи съвети как да печелите пари от технологията на OpenAI, са гледани стотици хиляди пъти. Много от тях предлагат съмнителни схеми, включващи нежелано съдържание. Някои казват на зрителите, че могат да правят хиляди долари на седмица, като ги призовават да пишат електронни книги или да продават реклами в блогове, пълни с генерирано от ИИ съдържание, което след това може да генерира приходи от реклами, като се появи при търсения с Google.

Google твърди, че работи за защита на своите резултати при търсене от спам и манипулация и че използването на генерирано от ИИ съдържание за манипулиране на класирането на резултатите от търсенето е нарушение на правилата за спам на компанията Alphabet.

Когато ChatGPT е помолен да „посочи няколко списания, които биха приемали съдържание, написано от ChatGPT“, ИИ предлага 10 издания, включително пет, които използват система за подаване на съдържание, наречена Moksha, за управление на подаването на статии.

„Издателите, които използват Moksha, определено са докладвали за ръст на изпращанията на текстове, генерирани от ИИ, така че разработихме инструменти за тях, за да реагират лесно и да блокират автори, които не следват указанията на издателите относно изкуствения интелект“, споделя Матю Кресел, създателят на Moksha. Той отбелязва, че списанието Shimmer, препоръчано от ChatGPT, Shimmer, е спряло работа през 2018 г.

ChatGPT е добър в предвиждането на следващите думи в изреченията, но понякога дава неправилни отговори, коментира говорител на OpenAI. „Много хора го смятат за търсачка, но не е“, посочва той.

Друго списание в списъка на ChatGPT, изданието за научна фантастика Clarkesworld, се налага временно да спре да приема онлайн публикации по-рано тази година, тъй като е затрупано от стотици истории, генерирани от ИИ, каза издателят на Clarkesworld Нийл Кларк. Той твърди, че притокът е бил заради онлайн видеоклипове, които препоръчват използването на ChatGPT за създаване на статии за изданието.

Кларк, подобно на други издатели, казва пред WSJ, че неговото списание отхвърля всички писмени материали, написани от изкуствен интелект, и че те са лесни за идентифициране.

Те имат „перфектен правопис и граматика, но напълно несвързана история“, споделя той. Често започват с голям проблем - светът ще свърши - и 1000 думи по-късно проблемът някак е решен без обяснение, коментира той.

„Всички те са написани по доста скучен и общ начин“, посочва Стивънс от International Living. „Всички те са граматически правилни. Просто се усещат много шаблонни и наистина са безполезни за нас."

Ако интернет все повече се изпълва с генерирано от ИИ съдържание, това може да се превърне в проблем за самите компании за изкуствен интелект. Това е така, защото техните големи езикови модели, софтуерът, който формира основата на чатботовете като ChatGPT, се обучават на публични масиви от данни. Тъй като тези набори от данни стават все по-пълни с генерирано от ИИ съдържание, изследователите се притесняват, че езиковите модели ще станат по-малко полезни - феномен, известен като „колапс на модела“.

Точно както многократното сканиране и отпечатване на една и съща снимка в крайна сметка ще намали нейните детайли, колапсът на модела се случва, когато големите модели за обучение станат по-малко полезни, тъй като усвояват създадените от тях данни, каза Иля Шумайлов, научен сътрудник в Групата за приложно и теоретично машинно обучение в Оксфорд (OATML), който е съавтор на статия за този феномен.

Не само спам съдържанието ще допринесе за колапса на модела. Ще допринесе и нарастващото използване на ИИ за генериране на съдържание като цяло, твърди Шумайлов.

Миналия месец изследователи от École Polytechnique Fédérale de Lausanne са наели писатели на свободна практика онлайн, за да обобщят резюмета, публикувани в New England Journal of Medicine. В крайна сметка установяват, че повече от една трета от тях използват съдържание, генерирано от AI.

Шумайлов смята, че колапсът на модела е неизбежен, но има редица потенциални технически решения на този проблем. Например компаниите, които имат достъп до генерирано от хора съдържание, все още ще могат да изграждат висококачествени големи езикови модели.

„Това не е непременно нещо лошо“, посочва той. „Може би ще се отървем от captcha и ще стане нормално да си компютър в интернет“, каза той, имайки предвид картинните задачи, които уебсайтовете налагат, за да разграничат компютрите от хората.