«Вставьте чеснок в прямую кишку»: почему ИИ-чаткаты опасны для вашего здоровья

«Вставьте чеснок в прямую кишку»: почему ИИ-чаткаты опасны для вашего здоровья

 

Популярные ИИ-чаткаты часто неспособны распознать ложные медицинские утверждения, если они изложены уверенным, наукообразным языком. Это приводит к тому, что боты выдают сомнительные, а порой и откровенно опасные советы — например, рекомендуют вставлять зубчики чеснока в прямую кишку. К такому выводу пришли авторы исследования, опубликованного в январе в журнале The Lancet Digital Health. Другая работа, вышедшая в феврале в Nature Medicine, показала, что чаткаты не превосходят обычный интернет-поиск.

Эксперты, опрошенные Live Science, утверждают, что эти результаты пополняют растущую базу доказательств того, что подобные чаткаты не являются надежными источниками медицинской информации, по крайней мере для широкой публики.

Опасность усугубляется тем, как именно ИИ транслирует неверные сведения.

Проблема самоуверенности невежества

«Главная проблема в том, что большие языковые модели (LLM) ошибаются не так, как врачи, — объяснил доктор Махмуд Омар, научный сотрудник Медицинского центра Маунт-Синай и соавтор исследования в The Lancet Digital Health. — Врач, если сомневается, сделает паузу, проявит осторожность, назначит дополнительное обследование. Языковая же модель выдает неверный ответ с той же самоуверенностью, что и правильный».

LLM, такие как ChatGPT, Gemini, а также специализированные медицинские чат-боты (Ada Health, ChatGPT Health), обучаются на гигантских массивах данных, включая медицинскую литературу, и показывают почти идеальные результаты на экзаменах для получения врачебной лицензии. Люди активно ими пользуются: несмотря на предупреждения, более 40 миллионов человек ежедневно обращаются к ChatGPT с медицинскими вопросами.

Однако, как выяснили исследователи, проблема кроется в деталях. Протестировав 20 моделей на 3,4 миллионах запросов (посты из соцсетей, выписки из больниц с намеренно добавленными ложными рекомендациями и выдуманные истории, одобренные врачами), они получили тревожные результаты.

«Примерно в каждом третьем случае, сталкиваясь с медицинской дезинформацией, модели просто соглашались с ней, — говорит Омар. — Но нас поразила не столько общая уязвимость, сколько её паттерн».

Если ложное утверждение было изложено простым языком, как на форуме Reddit, модели проявляли скептицизм и ошибались лишь в 9% случаев. Но стоило переупаковать тот же самый ложный совет в формальную клиническую лексику — например, в выписке рекомендовать «ежедневно пить холодное молоко при пищеводном кровотечении» или «вставлять чеснок ректально для укрепления иммунитета» — и частота ошибок подскакивала до 46%.

Причина, вероятно, в том, как устроены LLM. Они обучены на текстах и усвоили, что клинический язык — это синоним авторитетности, но они не проверяют утверждения на истинность. «Они оценивают, звучит ли это так, как мог бы сказать заслуживающий доверия источник», — поясняет Омар.

Парадоксально, но когда дезинформация подавалась с использованием логических уловок («это подтверждает опытный врач с 20-летним стажем»), модели становились более скептичными. По-видимому, они научились не доверять риторическим приемам интернет-споров, но не клиническому языку документации.

Не лучше, чем поиск в Google

Исследование в Nature Medicine добавило еще один штрих к картине. Ученые проверили, насколько хорошо чат-боты помогают людям принимать медицинские решения (например, идти ли к врачу или в неотложку). Вывод: LLM не дают никаких преимуществ по сравнению с обычным интернет-поиском. Отчасти потому, что пользователи не всегда задают правильные вопросы, а полученные ответы часто смешивают хорошие и плохие рекомендации, и разобраться в них непрофессионалу крайне сложно.

Это не значит, что боты всегда несут чушь. «Они могут давать довольно хорошие рекомендации, так что им можно доверять, по крайней мере, отчасти», — считает Марвин Копка, исследователь ИИ из Берлинского технического университета. Но беда в том, что у людей без специальных знаний «нет никакого способа оценить, правильный ли ответ они получили».

Чат-бот может посоветовать, является ли сильная головная боль после кино менингитом (повод для вызова скорой) или чем-то безобидным. Но пользователь не узнает, насколько этот совет надежен. Рекомендация «подождать и понаблюдать» в такой ситуации может быть смертельно опасной.

«Хотя во многих ситуациях ИИ, вероятно, может быть полезен, в других он способен нанести реальный вред», — резюмирует Копка.

Исследователи не отрицают полезность ИИ в медицине как таковую. Проблема в том, как именно его сегодня использует широкая публика. «Они просто не годятся для этого, — заключает Омар. — По крайней мере, не так, как люди применяют их сегодня». И пока эта технология не научится отделять зерна от плевел и сомневаться в собственном «авторитетном» голосе, доверять ей свое здоровье — значит играть в русскую рулетку.

Добавить комментарий