Здравният тласък на ChatGPT има фатален дефект

Съветите за здраве са област, в която генеративният изкуствен интелект има едни от най-вълнуващите си възможности.

17 January 2026 | 19:00
Автор: Парми Олсън
Редактор: Емил Соколов
Снимки: Pexels.com
Снимки: Pexels.com
  • OpenAI и Anthropic навлизат агресивно в здравеопазването с ChatGPT Health и „лекарска“ версия на Claude, но ключовият проблем - халюцинациите и измеримата надеждност - остава неясно адресиран.
  • Anthropic показва впечатляваща точност за конкретни кодове (ICD-10), но не дава достатъчно ясни числа за точността на клинични препоръки; OpenAI също не предоставя твърди данни за грешките при здравни съвети.
  • Историята на Google Health и скандалите около DeepMind и Project Nightingale напомнят, че без прозрачност и доверие рискът от провал - и реална вреда при решения „живот или смърт“ - е огромен.

OpenAI и Anthropic обявиха мащабни планове да навлязат в здравеопазването - с потребителски инструмент, наречен ChatGPT Health, и версия на чатбота Claude, която може да помага на лекарите да стигнат до диагноза и да пишат медицински бележки. Забележително отсъстващ от тази вихрушка от анонси е Google. Неговият чатбот Gemini е сред най-популярните и най-способните, така че защо да не се хвърли и той на доходоносния здравен пазар? Може би защото Google знае от опит, че подобно начинание може да се обърне зрелищно срещу него.

Съветите за здраве са област, в която генеративният изкуствен интелект има едни от най-вълнуващите си възможности. Но по-новите AI компании - вероятно заслепени от самоувереност и шум - са изправени пред съдба, подобна на тази на Google, ако не бъдат по-прозрачни за прословутите халюцинации на технологията си.

ChatGPT Health и Claude за лекари: какво обещават инструментите

OpenAI постепенно въвежда нова функция, която позволява на потребителите да задават въпроси за здравето си, с отделна „памет“ и връзки към данни от медицинските досиета на човек или от неговите приложения,ориентирани към здравете, ако избере да ги свърже. Компанията казва, че ChatGPT Health е по-сигурен и „не е предназначен за диагностика“, но много хора вече го използват, за да определят какво им е.

Повече от 230 милиона души всяка седмица питат приложението за съвети, свързани със здравето, твърди компанията. Тя обяви и ChatGPT for Healthcare - версия на бота за лекари, която се тества в няколко болници, включително Boston Children’s Hospital и Memorial Sloan Kettering Cancer Center.

Anthropic, която има по-голям успех от OpenAI в продажбите към бизнеса, пусна чатбот, насочен към лекарите. Той изглежда като потребителската версия на Claude, но е обучен върху бази данни с медицинска информация като диагностични кодове и данни за доставчици на здравни услуги - за да помага при генериране на документи за разрешения - и върху академични статии от PubMed, за да насочва лекаря към потенциална диагноза.

Компанията даде примамлив намек как това обучение може да направи Claude по-точен. Когато потребителската версия на Claude бъде попитана за ICD-10 кодовете, които лекарите използват, за да класифицират диагноза или процедура, отговорът е правилен в 75% от случаите, каза главният продуктов директор на Anthropic Майк Кригър на събитие по представянето по-рано този месец. Но „лекарската“ версия на Claude, обучена върху тези кодове, е 99,8% точна.

Фаталната дупка: колко надеждни са тези модели при диагноза?

Но какъв е процентът точност, когато става дума за поставяне на диагноза? Точно това число изглежда по-важно. Когато попитах Anthropic, компанията не успя да даде пълен отговор. Тя каза, че най-мощният ѝ модел за разсъждение, Claude Opus 4.5, е постигнал 92,3% точност на MedCalc, който тества точността на медицински изчисления, и 61,3% на MedAgentBench, който измерва дали AI може да изпълнява клинични задачи в симулирана система за електронни здравни записи.

Но нито едно от двете не показва колко надежден е AI при клинични препоръки. Първото се отнася до тест за дозиране на лекарства и лабораторни стойности; а 61,3% - нека си го кажем - е тревожно нисък резултат.

За чест на Anthropic, нейните модели са по-искрени - по-склонни да признават несигурност, вместо да измислят отговори - в сравнение с тези на OpenAI или Google, според данни, събрани от Scale, AI компанията, която Meta Platforms Inc. наскоро придоби.

Anthropic изтъкна тези числа по време на представянето си на конференцията JPMorgan Chase Healthcare Conference в Сан Франциско, но подобни похвали ще звучат кухо за лекарите, ако не могат да се измерят колко точен е един диагностичен инструмент в действителност.

Когато попитах OpenAI за надеждността на ChatGPT при здравни факти, говорителка каза, че моделите са станали по-надеждни и по-точни в здравни сценарии спрямо предишни версии, но също не предостави твърди числа, показващи честотата на халюцинациите при даване на медицински съвет.

Отдавна AI компаниите мълчат колко често чатботовете им грешат - отчасти защото това би подчертало колко труден е проблемът за решаване. Вместо това те дават бенчмарк данни, например колко добре се представят моделите им на изпит за медицински лиценз. Но по-голямата прозрачност за надеждността ще е критична, за да се изгради доверие както сред здравните професионалисти, така и сред обществото.

Урокът на Google: доверие, скандали и по-високата цена на грешката

Alphabet Inc. (Google) научи това по трудния начин. Между 2008 и 2011 г. компанията се опита да създаде личен здравен запис под марката „Google Health“, който да събира медицинските данни на човек от различни лекари и болници на едно място.

Опитът се провали отчасти, защото Google се сблъска с огромно техническо предизвикателство да обедини здравни данни от несъвместими системи. По-големият проблем: хората се чувстваха неловко от идеята да качват здравните си досиета в компания, която редовно „изсмуква“ лична информация за реклами.

Общественото недоверие беше толкова силно, че достойна инициатива на лабораторията DeepMind на Google да предупреждава болнични лекари за признаци на остра бъбречна недостатъчност беше прекратена през 2018 г., след като стана ясно, че проектът е получил достъп до над един милион пациентски досиета във Великобритания. Година по-късно Wall Street Journal разкри друг проект на Google - известен като Project Nightingale - за достъп до медицинските записи на милиони пациенти в САЩ.

И в двата случая това беше възприето като скандал и урокът беше ясен: хората възприемаха Google като ненадежден. Това прави съдбата на AI компаниите в здравеопазването още по-деликатна. Проблемите на Google произтичаха от публичното възприятие, не от грешки на системите му при обработка на медицински записи. Цената ще бъде по-висока, ако ChatGPT или Claude допуснат грешка, докато помагат на лекарите да вземат решения „живот или смърт“.

Може би наивност или тунелно мислене е накарало Дарио Амодей, главния изпълнителен директор на Anthropic, да засегне точно този въпрос по време на представянето в здравеопазването миналата седмица - въпреки че компанията не предостави данни, които да го адресират. Определението за „безопасност“ се разширявало, докато компанията навлиза в нови пазари като здравето, каза той. „Здравеопазването е едно място, където не искаш моделът да си измисля неща“, добави той. „Това е лошо.“

Парми Олсън е колумнист в Bloomberg Opinion, специализирана в технологиите, изкуствения интелект и дигиталната култура. Тя е бивш репортер на Forbes и Wall Street Journal и автор на книги за технологични общности.