Може ли AI да отключи тайните на античния свят?

09:00 | 22 март 2024
Обновен: 11:12 | 29 март 2024
Снимка: Bloomberg LP
Снимка: Bloomberg LP

 

От Ашли Ванс и Елен Хует

Преди няколко години, по време на един от непрекъснато влошаващите се сезони на горски пожари в Калифорния, семейният дом на Нат Фридман изгорял. Няколко месеца след това, по време на Covid-19 локдауна Фридман бил в района на залива, едновременно уплашен и подтиснат. Като много бащи на средна възраст, той насочил вниманието си към древeн Рим за изцеление и напътствие. Докато някои от нас гледаха Tiger King и си играеха с децата на Лего, той четял книги за империята и помагал на дъщеря си да прави хартиени модели на римски къщи. Вместо хляб с квас, той се научил да пече panis quadratus, римски хляб, изобразен на някои от фреските, открити в Помпей. По време на безсънни нощи през пандемията той прекарвал часове в търсене на нови материали за Рим в Интернет. Така той стигнал до папирусите на Херкулан, нещото, което го довело до по-нататъшна мания. Той си спомня как е възкликнал: „Как, по дяволите, никой не ми е казал за това?“

Папирусите от Херкулан са колекция от свитъци, чийто статут сред класицистите се доближава до митичен. Свитъците са били заровени в италианска селска къща по време на същото вулканично изригване през 79 г. сл. н. е., което оставя Помпей замръзнал във времето. Към днешна дата само около 800 екземпляра са открити в малка част от разкопаната къща. Но къщата, за която историците смятат, че е принадлежала на преуспелия тъст на Юлий Цезар, се смята, че е съдържала огромна библиотека, която може би е съдържала хиляди или дори десетки хиляди книги. Такъв улов би представлявал най-голямата колекция от древни текстове откривани някога и общоприето е мнението сред учените, че ще разшири значително фондовете от древногръцка и римска поезия, пиеси и философия. Произведения на автори като Есхил, Сафо и Софокъл са на първо място в техните списъци с желания, но някои казват, че е лесно да си представим нови разкрития за най-ранните години на християнството.

„Някои от тези текстове биха могли напълно да пренапишат историята на ключови периоди от древния свят“, казва Робърт Фаулър, класик и председател на Herculaneum Society, благотворителна организация, която се опитва да повиши осведомеността за свитъците и мястото на къщата. „Това е обществото, от което се появи модерният западен свят.“

Известно е, че причината да нямаме информация какво точно има в папирусите от Херкулан е вулканът. Свитъците били запазени сред огромното количество гореща кал и отломки, които ги заобикаляли, но последващите изригвания на Везувий ги овъглили до неузнаваемост. Тези, които са били изкопани, изглеждали като останки от цепеници от угаснал огън. Хората са прекарали стотици години в опити да ги развият - понякога внимателно, а понякога – не, а свитъците са крехки. Дори и най-внимателните опити да се развият, обикновено завършвали с неуспех, защото се разпадали на прах.

През последните години са били полагани усилия за създаване на 3D сканирания с висока разделителна способност на вътрешността на свитъците. Идеята била да ги развият виртуално. Тази работа обаче често се оказвала по-скоро мъчителна, отколкото полезна. Учените успявали да видят само фрагменти от вътрешността на свитъците и следи от мастило върху папируса. Някои експерти се кълнели, че могат да видят писмата при сканиране, но общото мнение било, че това е труднопостижимо и сканирането на цялото хранилище е логистично трудно и непосилно скъпо за всички, освен за клиентите с най-дълбок джоб. Всичко наподобяващо думи или текстове останало една голяма тайна за дълго време.

Но Фридман не е обикновен баща, обичащ Рим. Той е бил главен изпълнителен директор на GitHub Inc., основна платформа за разработка на софтуер, която Microsoft Corp. е придобила през 2018 г. Като част от GitHub, Фридман разработил един от първите помощници за програмиране, работещи с AI и видял отблизо нарастващата сила на AI. Фридман имал предчувствие, че AI алгоритмите могат да открият модели в изображенията на свитъците, които хората са пропуснали.

След като проучвал това известно време и се интегрирал в общността на класицистите, Фридман, който напуснал GitHub, за да стане инвеститор, фокусиран върху AI, решил да започне състезание. Миналата година той стартира състезанието Везувий, предлагайки награди от 1 милион долара на хора, които могат да разработят софтуер с изкуствен интелект, който може да прочете четири пасажа от един свитък. „Може би има очевидни неща, които никой не е пробвал“, спомня си какво си е мислил. „Животът ми потвърждава това мнение отново и отново.“

С течение на времето стана ясно, че предположението на Фридман е правилно. Участници от цял ​​свят, много от които били около двадесет годишни, с опит в компютърните науки, разработили методи за правене на 3D сканирания и превръщането им в по-четими листове. Някои намирали букви, после думи, обменяли си съобщения за своята работа и напредък в чат в Discord, докато старата школа понякога ги гледали със страхопочитание и надежда, а понякога критикували историците-аматьори.

На 5 февруари, Фридман и неговият академичен партньор Брент Сийлс, професор по компютърни науки и експерт по свитъци, съобщиха, че група участници са предоставили преписи на повече от четири пасажа от един от свитъците. Въпреки че е твърде рано да се правят драстични заключения от толкова малко, Фридман казва, че е сигурен, че същите техники ще доведат до много повече от съдържанието на свитъците. „Моята цел“, казва той, „е да ги отключа всичките.“

 

Преди изригването на Везувий, град Херкулан се е намирал на брега на Неаполитанския залив, нещо като място за почивка, където богатите римляни са почивали и размишлявали. За разлика от Помпей, който бил директно ударен от потока лава на Везувий, Херкулан постепенно бил погребан под вълни от пепел, пемза и газове. Въпреки че процесът далеч не бил лек, повечето жители имали време да избягат и голяма част от града останала недокосната под втвърдените магмени скали. Фермери за първи път открили града през 18 век, когато копачи откриват мраморни статуи в земята. През 1750 г. една от тях пада на мраморния под на къща, за която се смята, че е принадлежала на сенатор Луций Калпурний Пизон Цезонин, тъстът на Цезар, известен на историците днес като Пизон.

През това време първите археолози, които изкопали тунели в къщата, за да я картографират, преди всичко търсели ценни артефакти, като статуи, картини и разпознаваеми битови предмети. Първоначално хората, които са се натъквали на свитъците, някои от които били разпръснати по цветния мозаечен под, са мислили, че са просто цепеници и ги хвърлили в огъня. Въпреки това, в крайна сметка някой забелязал, че трупите често се намирали в стаи, които приличали на библиотеки или читални, и разбрал, че това са изгорени папируси. Въпреки това, всеки, който се опитал да ги отвори, установявал, че се разпада в ръцете му.

През следващите десетилетия със свитъците се случвали ужасни неща. „Научните опити“ за разтваряне на страници включвали обливането им с живак (не правете това) и продухването им със смес от газове (това също не го правете). Някои свитъци били разполовени, разпорени и като цяло неправилно експлоатирани, което и до днес кара историците да леят сълзи. Човекът, който се доближил най-много до разтварянето им през този период, е Антонио Пиаджо, свещеник. В края на 1700 г. той построил дървена стойка, която да опъва копринените нишки, прикрепени към краищата на свитъците, и можела да се регулира с прост механизъм, което позволявало документът да се развива много внимателно със скорост от 1 инч на ден. Невероятно, но това проработило; устройството успяло да отвори някои свитъци, въпреки че обикновено ги повреждало или направо ги разкъсвало на парчета. През следващите векове, екипи, организирани от други европейски сили, включително един, събран от Наполеон, сглобявали скъсани парчета с нечетлив текст тук и там.

В днешно време, къщата остава почти заровена, неразкопана и затворена дори за експерти. Голяма част от това, което е било намерено там и е било одобрено за четливо, се приписва на Филодемус, епикурейският философ и поет, което кара историците да се надяват, че много по-голяма основна библиотека е заровена някъде другаде на мястото. Смята се, че богат и образован човек като Пизон би притежавал класиката на времето, заедно с по-модерни произведения по история, право и философия. „Вярвам, че там има много по-голяма библиотека“, казва Ричард Янко, професор по класически науки в Мичиганския университет, който прекарва часове, старателно сглобявайки на ръка фрагментите от свитъка като пъзел. „Не виждам причина да смятам, че не е все още там и да не е съхранена по същия начин.“ Дори обикновеният гражданин от онова време би могъл да има колекции от десетки хиляди свитъци, казва Янко. Известно е, че Пизон често е кореспондирал с римския държавник Цицерон, а апостол Павел е минавал през региона няколко десетилетия преди изригването на Везувий. Писанията, коментиращи Исус и християнството, може да са били свързани с неговото посещение. „Днес имаме около 800 свитъка от къщата“, казва Янко. „Може да има още хиляди или десетки хиляди.“

В съвременната епоха, великият пионер на свитъците е Брент Сийлс, професор по компютърни науки в Университета на Кентъки. През последните 20 години той използва съвременни технологии за медицински образи, разработени в компютърна томография и ултразвук, за да анализира нечетливи стари текстове. През по-голямата част от това време основното му търсене били папирусите на Херкулан. „Трябваше“, казва той. „Никой друг не работеше върху това и никой друг не смяташе, че това дори е възможно.“

 

Напредъкът бил бавен. Сийлс създал софтуер, който теоретично можел да сканира навит свитък и виртуално да го развие, но не можел да се справи с истинския свитък от Херкулан, когато го тества през 2009 г. „Сложността на това, което видяхме, счупи целия ми софтуер.“, казва той. „Слоевете вътре в свитъка не бяха еднакви. Всички те бяха объркани и хвърлени на едно място и софтуерът ми не можеше да ги проследи без грешки.“

До 2016 г. той и неговите ученици успели да разчетат свитъка Ейн Геди, овъглен древен еврейски текст, като програмирали своя специализиран софтуер за откриване на промени в плътността между изгорения ръкопис и слоевете изгоряло мастило, нанесено върху него. Софтуерът направил буквите да светят на по-тъмен фон. Екипът на Сийлс имал големи надежди да приложи тази техника върху папирусите от Херкулан, но те били написани с различно въглеродно мастило, което оборудването им за изображения не можело да освети по същия начин.

През последните няколко години Сийлс започнал да експериментира с AI. Той и неговият екип сканирали свитъците с помощта на по-мощни устройства за изображения, изследвали части от папируса, където се виждало мастилото, и съставили алгоритми за това как изглеждат тези модели. Надеждата била, че AI ще започне да улавя детайли, които човешкото око пропуска, и ще може да приложи наученото към по-нечетливи свитъци. Този подход се оказал плодотворен, въпреки че останала битката за няколко последни сантиметра. Технологията открила фрагменти от свитъци, но повечето от тях били нечетливи. Нуждаел се от нов пробив.

Фридман настроил сигналите на Google за Сийлс и папирусите през 2020 г., когато манията му по Рим все още била в начален етап. Изминала година без новини и той започнал да гледа видеоклипове в YouTube на Сийлс, обсъждащи важни проблеми. Освен всичко друго, Сийлс се нуждаел от пари. До 2022 г. Фридман бил убеден, че може да помогне. Той поканил Сийлс в Калифорния за събитие, където се събират хора от Силициевата долина и споделят големи идеи. Сийлс направил на групата кратко представяне на свитъците, но никой не казал нищо. „Чувствах се много, много виновен и засрамен, защото той дойде в Калифорния и Калифорния го провали“, казва Фридман.

Изведнъж, от нищото, Фридман се обърнал към Сийлс с идеята за състезанието. Казал, че ще вложи част от собствените си пари да го финансира, а партньорът му инвеститор, Даниел Грос, предложил да даде същата сума.

Сийлс казва, че е преценил плюсовете и минусите. Папирусите от Херкулан се превърнали в делото на живота му и искал той да ги дешифрира. Много от неговите ученици също инвестирали време и енергия в проекта и планирали да публикуват статии за своите усилия. Сега, внезапно, няколко богаташи от Силициевата долина навлезли в тяхната територия и предлагали случайни хора от интернет да направят големите открития, които убягнали на експертите.

Повече от славата, обаче, Сийлс, всъщност, просто се надявал, че свитъците ще бъдат прочетени и се съгласил да изслуша Фридман и да помогне с разработката на AI състезанието. Миналата година, на Мартенските иди състезанието „Везувий“ започна. Фридман обяви състезанието на платформата, която си спомняме с умиление като Twitter, и много от неговите технически приятели се съгласиха да дарят пари за усилията, докато група начинаещи папиролози започнаха да се ровят в предизвикателството. След няколко дни Фридман беше натрупал достатъчно пари, за да предложи 1 милион долара награди, плюс малко допълнителни пари, които да похарчи за някои от по-отнемащите време основни задачи.

Фридман нае хора от Интернет, за да съберат съществуващи изображения на свитъците, да ги каталогизират и да създадат софтуерни инструменти, които улесняват сегментирането на свитъците и изравняването на изображенията в нещо, което може да се прочете на компютърен екран. Когато намира няколко души, които са особено добри в това, той ги прави пълноправни членове на екипа си за състезанието, като им плаща $40 на час. Хобито му се превърнало в начин на живот.

Първоначалният прилив на внимание помогна да се отворят нови врати. Сийлс години наред лобира сред италиански и британски колекционери да му позволят да направи първите сканирания на техните свитъци. Изведнъж италианците предложиха два нови свитъка за сканиране, за да получат повече данни за обучение на AI. С насърчението на Фридман, екипът се зае със създаването на прецизно монтирани 3D отпечатани капаци, за да защити новите свитъци при полета им с частен самолет от Италия до ускорител на частици в Англия. Там те са били сканирани три поредни дни на цена от около 70 000 долара.

Гледайки процеса на визуализация в действие ще ви помогне да разберете както магията, така и трудността на това начинание. Например, един от остатъците от свитък, поставен в скенера, не беше много по-голям от дебел пръст. Той е заснет с високоенергийни рентгенови лъчи, подобно на това, когато човек се подлага на компютърна томография, с изключение на това, че получените изображения са заснети с изключително висока разделителна способност (за истинските маниаци: около 8 микрометра). Тези изображения после са наредени във върволица от малки парчета, твърде много, за да ги преброи човек. По дължината на всеки срез скенерът записва безкрайно малки промени в плътността и дебелината. След това се използва софтуер за разгъване и подравняване на парчетата и получените изображения изглеждаха разпознаваеми като листове папирус със скрит надпис.

Файловете, създадени от този процес, са толкова големи и толкова трудно се обработват на обикновен компютър, че Фридман не можел да даде цял свитък на повечето потенциални победители в състезанието. За да отговарят на условията за голямата награда от $700 000, участниците ще трябва да прочетат само четири пасажа от поне 140 знака непрекъснат текст до края на 2023 г. В същото време ще бъдат присъдени по-малки награди от 1000 до 100 000 долара за различни постижения, като например първият човек, който прочете букви върху свитък или създаде софтуерни инструменти, които могат да улеснят обработката на изображения. Позовавайки се на своите корени, Фридман настоя тези награди да могат да бъдат спечелени само ако участниците се съгласят да покажат на света как са го направили.

Люк Фаритор се вманиачил от самото начало. Фаритор е енергичен 22-годишен жител на Небраска, който често възкликва: „О, Боже мой!“, когато чува Фридман да описва конкуренцията в подкаст през март. „Мисля, че има 50% шанс някой да се възползва от тази възможност да получи данните и да се развълнува, и ние ще го направим тази година“, каза Фридман в шоуто. Фаритор, студент по компютърни науки в Университета на Небраска-Линкълн, си помислил: „Това може да съм аз.“

Първите месеци били пълни с мътни образи. Тогава Кейси Хандмър, австралийски математик, физик и ерудит, облагодетелства човечеството, като изпревари компютрите до първия голям пробив. Хандмър направил няколко опита да напише код, който чете свитъка, но скоро стигнал до заключението, че същия резултат ще има и ако просто се взира в изображенията много дълго време. В крайна сметка той започнал да забелязва това, което той и други нарекоха „напукване“ – бледа шарка от пукнатини и линии на страницата, напомняща на това, което може да видите в тинята на изсъхнало езерно дъно. Според Хандмър напукването имало форма като на гръцки букви, както и петна и щрихи, които придружават ръкописното мастило. Той смята, че това е засъхнало мастило, което се е издигнало от повърхността на страницата.

Откриването на напукването подтикнало Хандмър да се опита да идентифицира фрагменти от букви в едно изображение на свитъка. В духа на състезанието той публикувал резултатите си от състезанието Везувий в канала на Discord през юни. По това време Фаритор бил летен стажант в SpaceX., Калифорния. Той бил в стаята за почивка и отпивал от диетичната си кола, когато видял публикацията, и първоначалното му недоверие не продължило дълго. През следващия месец той започнал да търси напукване в други файлове с изображения: една буква тук, друга двойка там. Повечето от буквите били невидими за човешкото око, но 1% или 2% имали напукване. Въоръжен с тези няколко букви, той научил модел за разпознаване на скрито мастило, като разкрил още няколко букви. След това Фаритор добавил тези букви към данните за обучение на модела и ги пускал отново, отново и отново. Моделът започвал с нещо, което само хората могат да видят - модел на напукване - и след това се научава да вижда мастило, което ние не можем.

За разлика от днешните широкоезични AI модели, които поглъщат данни, моделът на Фаритор успял да се справи с малки парченца. За всеки квадрат от изображението с размери 64 на 64 пиксела той просто попита: Има ли мастило тук или не? И помогнало това, че резултатът бил известен: гръцки букви, разположени под прав ъгъл спрямо защрихованите влакна на папирус.

В началото на август, Фаритор имал възможност да тества своя софтуер. Той се върнал в Линкълн, за да довърши лятото и се озовал на домашно парти с приятели, когато в канала на състезанието в Discord се появило ново, силно напукано изображение. Докато хората около него танцували и пиели, Фаритор взел телефона си, дистанционно се свързал с компютъра си в общежитието, подал изображението в своята система за машинно обучение и след това оставил телефона. „Един час по-късно карам всичките си пияни приятели вкъщи, а след това излизам от гаража и вадя телефона си, без да очаквам да видя нещо“, казва той. „Но когато го отворих, на екрана се появяват три гръцки букви.“

Около 2 часа сутринта Фаритор изпратил съобщение на майка си и след това на Фридман и другите състезатели, за да ги уведоми какво е открил, сдържайки сълзите на радост. „Това беше моментът, в който си помислих: „О, Боже мой, това наистина ще проработи. Ще прочетем свитъците."

Скоро след това, Фаритор намерил 10 букви и спечели $40 000 като една от наградите на състезанието. Класицистите прегледали работата му и казаха, че е намерил гръцката дума за "лилаво".

Фаритор продължил да обучава модела си за машинно обучение върху данни за напукване и публикувал напредъка си в Discord и Twitter. Откритията, които той и Хандмър направили, предизвикали нова вълна от ентусиазъм сред участниците и някои започнали да използват подобни методи. През втората половина на 2023 г. Фаритор се обединил с други двама съперници, Юсеф Надер и Джулиан Шилигер, които се съгласили да комбинират своите технологии и да споделят всички парични награди.

В крайна сметка, състезанието „Везувий“ получи 18 кандидатури за

основната му награда. Някои от предложенията бяха скучни, но малка част от тях показали, че залогът на Фридман е увенчан с успех. Изображенията на свитъците, които някога били неясни петна, сега имали осветени цели абзаци с букви. Системата за изкуствен интелект съживи миналото. „Това е ситуация, с която практически никога не се сблъсквате като класицист,” казва Тобиас Рейнхард, професор

по антична философия и латинска литература в Оксфордския университет. „Вие предимно разглеждате текстове, които някой друг вече е разглеждал. Идеята, че четете текст, който последно е бил разгръщан на нечие бюро преди 1900 години, е невероятна.“

Група класицисти прегледала всички записи и наистина обяви отбора на Фаритор за победител. Те успели да комбинират над дузина колони от текст с цели параграфи в цялата публикация. Продължавайки да превеждат, учените смятат, че този текст е друго произведение на Филодемус, занимаващо се с удоволствията от музиката и храната и тяхното въздействие върху сетивата. „Надничането и започването на дешифрирането на първите доста четливи сканирания на тази чисто нова древна книга беше изключително емоционално преживяване“, казва Янко, един от рецензентите. Въпреки че тези пасажи не съдържат много откровения за древен Рим, повечето класицисти таят надежди какво може да последва.

Има вероятност къщата да е празна - да няма повече библиотеки с хиляди свитъци, чакащи да бъдат открити - или другите да нямат какво да предложат. Но също така има вероятност те да съдържат ценни уроци за съвременния свят.

Този свят, разбира се, включва Ерколано, модерният град с около 50 000 жители, който е построен на върха на древния Херкулан. Много жители притежават недвижими имоти и сгради на територията на къщата. „Ще трябва да изгонят хората от Херкулан и да унищожат всичко, за да открият древния град“, казва Федерика Николарди, папиролог от университета Федерико II в Неапол.

Избягвайки масовото преместване, Фридман работи за подобряване на това, което има. Има още много да се направи; първото състезание донесе около 5% от един свитък. Според него новозаписаните може да достигнат 85%. Той също така иска да финансира повече автоматизирани системи, които могат да ускорят процесите на сканиране и цифрово изглаждане. Сега той е една от малкото живи души, които се скитат из тунелите на къщата, и казва, че също така обмисля закупуването на скенери, които да бъдат поставени директно във къщата и паралелно да се използват за сканиране на тонове свитъци на ден. „Дори да има само един диалог от Аристотел, или красива изгубена поема от Омир, или съобщение от римски генерал за един човек, на име Исус Христос, който се скита наоколо“, казва той, „всичко, от което се нуждаем, е едно от тези неща, за да си струва всичко това."