Статия на изследователи от хедж фонда AQR Capital Management и университета Йейл разглежда един от най-важните въпроси във финансите: Ще заменят ли изкуственият интелект и машинното обучение човешките изследователи и търговци?
В 44 страници с гъсто написана теория и емпирични резултати, озаглавени „Добродетелството на сложността при прогнозирането на възвръщаемостта“, Брайън Кели, Семьон Маламуд и Кангин Джао твърдят, че по-сложните модели – твърде сложни за обработка от хората – превъзхождат по-простите модели. Негативната реакция беше бърза, като поне шест статии оспориха констатациите, които Кели впоследствие защити.
Как ще се развие това? Залагам на Кели и неговите съизследователи. Теоретичните аргументи са обезсърчително технически, но основният въпрос е древен и лесен за разбиране.
Един подход към прогнозирането е да се търсят няколко ключови индикатора с ясни причинно-следствени връзки с това, което искате да прогнозирате, и да се комбинират по прости начини. За да прогнозирате например възвръщаемостта на фондовия пазар за следващия месец, можете да разгледате възвръщаемостта за този месец, лихвените проценти, съотношенията цена-печалба и подобни променливи. Всичко останало се третира като случаен шум, който трябва да се игнорира. Проблемът с използването на твърде много индикатори или комбинирането им по прекалено сложен начин е „прекалено напасване“. Получавате модел, който обяснява миналото перфектно, а бъдещето изобщо не. Изградили сте модел, който е използвал шума в миналото, за да обясни всичко, но тези шумови връзки няма да се запазят в бъдещето.
Ако вашият интерес е да разбирате или обяснявате нещата, простият подход по-горе очевидно е правилният път. Но ако се интересувате само от прогнозиране, има и друг начин: Хвърлете всеки възможен индикатор в модела (техническият термин е „модел на кухненската мивка“) и опитайте всяка сложна комбинация. Ако акциите с „V“ в символа им на тикер са склонни да се покачват в дъждовни вторници, това влиза във вашия модел. Идеята е, че дори ако даден индикатор няма предсказваща стойност, той не вреди на прогнозите ви; просто добавя шум. Можете да включите всичко и след това да намалите шума или да търгувате много, така че шумът да бъде диверсифициран.
Дебатът, предизвикан от статията, е по-нюансиран от тази илюстрация. Кели и останалите не включват всеки възможен индикатор в своя модел, а само 15 променливи с 12 месечни стойности всяка - общо 300 - от които те напасват 12 000 параметъра, за да предскажат доходността на фондовия пазар за следващия месец. Те не използват букви в символите на борсата, нито времето във вторник. Опонентите им не спорят само за най-простите модели; те просто отричат, че сложността винаги е добродетел.
Много подобен дебат се е провел преди половин век в контекста на рулетката. В началото на 60-те години на миналия век Ед Торп, професорът по математика, който е изобретил броенето на карти в блекджек, и Клод Шанън, бащата на теорията на информацията, са построили първия в света носим компютър за предсказване на завъртанията на рулетката. Предишни системи за побеждаване на рулетка разчитаха на таблично представяне на минали резултати, за да намерят числа, които се появяваха по-често от други. Много хора твърдяха, че рулетките са твърде добре изработени, за да се получи полезно предимство от това.
Ключовото прозрение на Торп беше, че ако рулетките са построени достатъчно прецизно, така че всяко число да се появява с еднаква честота, те трябва да бъдат предвидими. Първоначалната му работа показа, че завъртането на рулетката има две фази. Когато топката се върти срещу външния ръб на купата - пистата на топката - и главата на рулетката (движещата се част с всички числа) се върти в обратна посока, системата се управлява от проста Нютонова физика.
Ако знаехте скоростта на топката и на рулетката, както и коефициентите на триене, би било лесно да се предвиди кое число ще бъде под топката, когато тя напусне пистата и падне върху рулетката. След като топката напусне пистата, дефлекторите, въртенето и отскоците правят движението ѝ хаотично и трудно за предвиждане. Въпреки това, самото познаване на това кое число е под топката, когато напусне пистата, ви позволява да идентифицирате една трета от колелото, в която топката ще се приземи в 40% от случаите - повече от достатъчно за печеливши залози.
Това доведе до един от основните принципи за квантовите инвеститори: Възможността се състои в намирането на предсказуемостта на нещата, които други хора третират като случайни, и несигурността в нещата, които други хора третират като детерминистични. До 70-те години на миналия век, изграждането на носима компютърна рулетка и доказването, че тя работи, беше един от ритуалите за преминаване за квантовите инвеститори. Подобренията в технологиите доведоха до огромни подобрения в точността и надеждността.
Между другото, тези устройства бяха законни по онова време. Казината обикновено имаха правила срещу устройства като магнити, които влияеха на резултатите, но не и срещу устройства, които просто ги предсказваха. През 1985 г. Невада забранява устройствата за предсказване. Други юрисдикции, като например Обединеното кралство, оставят това на отделните казина, но все още има много такива без правила срещу тях.
По времето, когато аз се опитах в това в средата на 70-те години, областта се беше разделила. Една група, физиците, вложиха енергията си в подобрени измервателни устройства. Те използваха сложни уравнения, за да обработят съответните данни, използвайки причинно-следствени модели, извлечени от физиката. Аз бях склонен към другата група, статистиците. Ние използвахме примитивни версии на алгоритми за машинно обучение, за да излседваме модели. Искахме да се възползваме не само от детерминистични фактори, приемайки перфектно рулетно колело, но и от модели от несъвършенства, като например някои слотове с числа, които са малко по-меки или по-твърди от други, или колелото не е съвсем хоризонтално. Измерихме много повече фактори от физиците, но с по-малка точност за всеки от тях, и обработихме много данни, които може би са изглеждали без никакво значение.
Двете групи имаха доста подобни аргументи на сегашния относно предимството на сложността. Голямото предимство на физиците бяха устройствата, които изискваха малко или никакво обучение за отделните рулетки, тъй като разчитаха на универсален физически закон, а не на несъвършенствата на отделните колела. Нашите предимства бяха ниската цена и по-високата точност на прогнозиране - особено в най-небрежните казина с по-евтини рулетки и слаба поддръжка - за сметка на необходимостта от часове калибриране, преди залозите да станат печеливши. (Добре управляваните казина сменят рулетките и купите всяка вечер, така че не можем да разчитаме на вчерашното калибриране за днешните залози.)
Залагам на сложността пред теорията от 50 години и на прогнозирането пред разбирането. Отдавна смятам, че машинното обучение и изкуственият интелект ще заменят човешките анализатори и търговци (както и човешките шофьори, лекари, адвокати и учени, наред с много други). Печелившите алгоритми за машинно обучение и изкуствен интелект ще намират свои собствени модели от възможно най-много данни, вместо да бъдат ръководени от хора, за да избират подходящи данни и да налагат априорни теоретични ограничения върху отговорите. Но често греша, така че не залагайте всичките си пари на числото, което моят компютър за рулетка харесва най-много.
Арън Браун е бивш ръководител на отдела за проучвания на финансовите пазари в AQR Capital Management. Той също така е активен криптоинвеститор и има инвестиции в рисков капитал и консултантски връзки с криптофирми.