Новые версии языковых моделей упрощают науку: исследование выявило рост ошибок в медицинских и научных данных

Новые версии языковых моделей упрощают науку: исследование выявило рост ошибок в медицинских и научных данных

Крупные языковые модели (LLM) становятся менее «интеллектуальными» с каждым новым обновлением — они чрезмерно упрощают, а в некоторых случаях искажают важные научные и медицинские данные. К такому выводу пришли авторы нового исследования.

Учёные проанализировали 4900 аннотаций научных статей и обнаружили, что ChatGPT, Llama и DeepSeek в пять раз чаще, чем эксперты-люди, допускали упрощения в изложении научных результатов.

Если модель запрашивали дать точный пересказ, она всё равно в два раза чаще обобщала выводы, чем при запросе на простой краткий пересказ. Кроме того, тестирование показало, что новые версии чат-ботов склонны к более грубым обобщениям по сравнению с предыдущими поколениями.

Результаты исследования были опубликованы 30 апреля в журнале Royal Society Open Science.

«Самое опасное в таких обобщениях — то, что они кажутся безобидными или даже полезными, пока не осознаёшь, что исходный смысл исследования уже искажён», — пояснил в письме Live Science автор работы Уве Петерс, постдок из Университета Бонна (Германия). «Мы разработали системный метод, который помогает выявлять случаи, когда модели выходят за рамки допустимых обобщений».

Это можно сравнить с копировальным аппаратом, который с каждым новым копированием делает текст крупнее и жирнее, искажая оригинал. LLM обрабатывают информацию через множество вычислительных слоёв, и на этом пути часть данных может теряться или незаметно менять смысл. Особенно это касается научных статей, где авторы указывают ограничения, контекст и уточнения. Создать простой, но точный пересказ в таких условиях крайне сложно.

«Ранние версии LLM чаще отказывались отвечать на сложные вопросы, тогда как новые, более мощные модели вместо этого выдают ответы, которые звучат убедительно, но содержат ошибки», — пишут исследователи.

Например, в одном из случаев DeepSeek изменил формулировку «был безопасен и мог быть успешно применён» на «является безопасным и эффективным методом лечения», что уже представляет собой медицинскую рекомендацию, которой не было в исходном тексте.

В другом тесте Llama расширила сферу применения препарата от диабета 2-го типа у молодых людей, упустив данные о дозировке, частоте приёма и побочных эффектах. Если бы такой пересказ попал к врачам, это могло бы привести к назначению лекарств за пределами их безопасного применения.

Опасные рекомендации

В ходе исследования учёные протестировали 10 популярных LLM (четыре версии ChatGPT, три версии Claude, две Llama и одну DeepSeek), задав три ключевых вопроса:

  1. Будет ли модель обобщать выводы при пересказе научной статьи?

  2. Улучшится ли точность, если запросить «более аккуратный» пересказ?

  3. Насколько чаще LLM обобщают по сравнению с людьми?

Результаты показали, что LLM (кроме Claude, который справился лучше всех) в два раза чаще допускали обобщения, даже когда их просили отвечать точно. А по сравнению с человеческими пересказами, искусственный интеллект обобщал выводы в пять раз чаще.

Наиболее опасными оказались случаи, когда количественные данные превращались в размытые утверждения — это могло приводить к небезопасным медицинским рекомендациям.

ИИ и медицина: скрытые риски

Эксперты на стыке искусственного интеллекта и здравоохранения отмечают, что подобные искажения порождают скрытые предубеждения.

«Это исследование показывает, что ошибки ИИ могут быть неочевидными — например, незаметное расширение выводов за пределы исходных данных», — пояснил Макс Роллваге, вице-президент по ИИ в компании Limbic (разработчик ИИ для психического здоровья). «Учитывая, что LLM уже используются для обработки медицинских данных, крайне важно понимать, насколько их выводы соответствуют оригинальным исследованиям».

По его мнению, разработчикам следует внедрять «защитные механизмы», которые будут выявлять упрощения и пропуски критической информации до того, как данные попадут к врачам или пациентам.

Ограничения и будущие исследования

Хотя работа охватила множество аспектов, у неё есть ограничения:

  • Тестирование проводилось только на английском — нужно проверить, как модели работают с другими языками.

  • Неясно, какие типы научных утверждений наиболее уязвимы к обобщениям.

  • Глубокий анализ промптов мог бы улучшить результаты, считает Роллваге.

Петерс же предупреждает о более серьёзных рисках по мере роста зависимости общества от ИИ:

«ChatGPT, Claude и DeepSeek всё чаще становятся источником научной информации для людей. Если их использование продолжит расти, это может привести к массовому неверному пониманию науки — в момент, когда доверие к ней и так под угрозой».

Другие эксперты, например Патриция Тэйн (соосновательница Private AI), указывают на главную проблему:

«Модели обучаются на упрощённых научно-популярных статьях, а не на оригинальных исследованиях, перенимая эти упрощения. Но главное — мы применяем универсальные ИИ в узкоспециализированных областях без контроля экспертов, что является фундаментальной ошибкой».

Вывод

Исследование подтверждает: чем «умнее» становятся ИИ, тем больше они склонны к опасным упрощениям. Чтобы избежать масштабных искажений науки, нужны новые методы контроля и экспертная проверка их выводов.

Поделитесь в вашей соцсети👇

Добавить комментарий