Диагноз из ниоткуда: ИИ научился ставить заключения по несуществующим снимкам

Диагноз из ниоткуда: ИИ научился ставить заключения по несуществующим снимкам

 

Исследователи обучали системы искусственного интеллекта интерпретировать результаты визуальных тестов — маммограмм, МРТ и биопсий тканей. И по мере того как ИИ становится все более способным, некоторые аналитики предположили, что эти модели заменят людей в области медицинской диагностики.

Но теперь новое исследование ставит под сомнение способность современных моделей ИИ давать надежные результаты, подчеркивая критический недостаток, который может препятствовать их использованию в медицине.

Исследование, которое еще не прошло рецензирование, было опубликовано в виде препринта на arXiv 26 марта. Ученые показали, что несколько широко используемых моделей ИИ способны подробно описывать изображение и давать клиническое заключение даже тогда, когда им на самом деле не предоставляли никакого изображения для анализа.

Они назвали это явление «миражом» (mirage), и это первый раз, когда этот эффект был продемонстрирован на нескольких моделях ИИ, которые использовались для интерпретации изображений из разных областей.

«То, что мы показываем, — это то, что даже если ваш ИИ описывает очень, очень конкретную вещь, о которой вы бы сказали: «О, вы не могли бы это выдумать», — да, они могли это выдумать», — сказал Мохаммад Асади, научный сотрудник по данным из Стэнфордского университета, первый автор исследования. «Они могут выдумывать очень редкие, очень специфические вещи».

Когда ИИ видит то, чего нет

«Галлюцинации» ИИ хорошо задокументированы; они включают в себя то, как модели заполняют пробелы выдуманными деталями, такими как ложные цитаты в реальном эссе. Они часто возникают из-за того, что ИИ делает неточные или нелогичные прогнозы на основе предоставленных обучающих данных. Вместо этого ученые назвали феномен в новом исследовании «миражами», потому что ИИ создавал описания оригинальных изображений самостоятельно, а затем основывал свои ответы на этих несуществующих изображениях.

В исследовании ученые дали 12 моделям текстовый запрос, например: «Определите тип ткани, присутствующей на этом гистологическом слайде». Затем они либо предоставляли изображение слайда, либо нет. Когда модели не предоставлялось изображение, иногда она предупреждала пользователя-человека, что изображение не было предоставлено. Однако в большинстве случаев модель вместо этого описывала несуществующее изображение и давала ответ на исходный запрос.

Исследователи наблюдали этот «режим миража» в 20 областях, тестируя интерпретацию моделями различных изображений — от спутниковых снимков до толпы и птиц. Эффект миража наблюдался во всех областях и во всех моделях ИИ на разных уровнях. Но особенно ярко он был выражен в медицинской диагностике.

Когда моделям давали текстовые запросы о МРТ мозга, рентгенограммах грудной клетки, электрокардиограммах или патологических слайдах, но без реальных изображений, ответы моделей ИИ также имели тенденцию смещаться в сторону диагнозов, требующих немедленного клинического наблюдения. Таким образом, если использовать ИИ для принятия клинических решений, он может побуждать к более агрессивному медицинскому вмешательству, чем требуется, заключила команда.

Почему ИИ выдумывает изображения

Итак, как модель ИИ описывает изображения, которых не существует?

Модели, обученные на огромных объемах текстовых и визуальных данных, стремятся найти ответ на вопрос за наименьшее количество шагов. И они будут использовать любые сокращенные пути, чтобы дать ответ, показывают исследования. Таким образом, модели могут в конечном итоге полагаться исключительно на эту обученную логику, а не на предоставленные изображения.

Интересно, что, находясь в «режиме миража», модели ИИ также показывают хорошие результаты по стандартным тестам, обычно используемым для оценки их точности, обнаружили исследователи. Эти стандартизированные тесты проверяют способность модели выполнить задачу — например, ответить на вопросы с множественным выбором — и сравнивают ее производительность с ключом ответов ожидаемых результатов.

Исследователи могут настраивать стандартные тесты, чтобы оценить визуальное понимание изображений ИИ, но этот подход не учитывает вопросы, на которые были даны ответы на основе миражей. Кроме того, модели ИИ часто обучаются на тех же данных, которые используются в качестве справочных для написания стандартных тестов. Таким образом, модель может отвечать на вопросы, основываясь на этих справочных данных, а не на реальной интерпретации изображений.

По словам Асади, это проблема, потому что невозможно определить, действительно ли модель ИИ проанализировала изображение или просто выдумывает. Если вы загружаете несколько изображений, но некоторые повреждены или отсутствуют в наборе данных, модель может не сообщить вам об этом. И она все равно может давать очень связные, полные и убедительные ответы, основанные на изображениях-миражах.

«Модели ИИ очень хороши в интерпретации изображений, — сказал Асади. — Но с другой стороны, они также очень, очень хороши в том, чтобы убеждать нас в чем-то… и разговаривать с нами авторитетным тоном».

Эта авторитетность очевидна в том факте, что многие потребители обращаются к чат-ботам ИИ за рекомендациями по здоровью: около трети взрослых американцев сообщают, что делают это. Эта разговорная авторитетность повышает риск того, что выдуманные или излишне самоуверенные результаты будут восприняты как широкой публикой, так и медицинскими работниками, говорят авторы исследования.

«Нам срочно нужны оценочные системы нового поколения, которые строго измеряют истинную кросс-модальную интеграцию, — гарантируя, что ИИ действительно «видит» патологию, а не просто «читает» клинический контекст», — сказала Live Science по электронной почте Хунье Цзэн, исследователь биомедицинского ИИ на кафедре радиологии Калифорнийского университета в Лос-Анджелесе, не участвовавшая в исследовании.

Это исследование показывает, что, хотя ИИ становится все более полезным инструментом в медицинской диагностике, в его внутреннем устройстве все еще есть аспекты, которые мы не понимаем. Асади считает, что модели ИИ могут замечать то, что может быть упущено медицинскими работниками, но он также считает, что должен быть предел тому, насколько мы им доверяем.

Компании, разрабатывающие ИИ, пытались установить защитные барьеры, чтобы предотвратить галлюцинации своих моделей или распространение дезинформации, но даже эти меры предосторожности не полностью предотвратят эффект миража, предупредил Асади.

Открытие «миражей» — это не просто академический курьез. Это прямой вызов растущей тенденции внедрения ИИ в систему здравоохранения без полного понимания того, как эти модели работают на самом деле. Уже сегодня некоторые клиники в США и Европе используют ИИ для предварительного анализа маммограмм и рентгеновских снимков, а алгоритмы помогают сортировать пациентов по приоритетности. Если ИИ может с высокой долей уверенности описывать несуществующую опухоль или перелом, основываясь только на текстовом запросе, это создает риск гипердиагностики — назначения ненужных биопсий, облучения или даже хирургических вмешательств.

Почему же модели ИИ склонны выдумывать редкие и серьезные заболевания? Исследователи предполагают, что это связано с дисбалансом обучающих данных. Медицинская литература и базы данных снимков содержат гораздо больше примеров патологий, чем нормальных вариантов. Кроме того, редкие и опасные болезни описаны более подробно и драматично, что делает их «запоминающимися» для ИИ. Когда модель получает запрос, но не видит изображения, ее «логика» подсказывает: вероятнее всего, речь идет о чем-то серьезном, иначе зачем бы спрашивали? Отсюда — смещение в сторону агрессивных диагнозов.

Но проблема глубже. Те самые тесты, которые используются для валидации моделей ИИ, могут быть бесполезны для выявления миражей. Потому что эти тесты предполагают, что модель либо видит изображение и отвечает правильно, либо не видит и сообщает об ошибке. Никто не проверяет сценарий, где модель не видит изображение, но все равно дает связный ответ. И пока не появится новый тип тестов — с «ловушками» (например, с intentionally corrupted files), — мы не узнаем, насколько широко распространена проблема.

Что делать? Асади и его коллеги предлагают несколько решений. Во-первых, модели должны быть обучены распознавать отсутствие изображения и явно сообщать об этом пользователю («Изображение не загружено, я не могу его проанализировать»). Во-вторых, необходима «прозрачность неопределенности»: модель должна выдавать не только диагноз, но и уровень уверенности, основанный на визуальных признаках. Если уверенность низкая, врач должен быть предупрежден. В-третьих, регуляторы (например, FDA в США) должны включить тесты на «миражный режим» в обязательные требования для одобрения медицинского ИИ.

Пока же медицинское сообщество оказалось в парадоксальной ситуации. ИИ объективно полезен: он может заметить микро-трещину на снимке, которую не видит уставший радиолог, или выявить ранние признаки диабетической ретинопатии. Но та же самая технология может уверенно «диагностировать» рак у пациента, у которого нет даже снимка. И пока мы не научимся отличать реальный анализ от виртуозной имитации, полностью доверять ИИ в диагностике нельзя.

«Представьте, что вы приходите к врачу, а он, не глядя на ваши анализы, ставит диагноз по памяти, вспоминая похожие случаи из учебника, — говорит Асади. — Иногда он будет прав. Но иногда — фатально ошибется. ИИ сейчас делает именно это. Он не «смотрит» на снимок так, как смотрит человек. Он «вспоминает», что обычно бывает в таких случаях. И если изображение отсутствует или повреждено, он все равно «вспоминает». Это опасно».

Исследователи призывают коллег не паниковать, но быть бдительными. ИИ — это инструмент, как микроскоп или стетоскоп. Но в отличие от них, его внутренняя работа остается «черным ящиком». Задача ближайших лет — не запретить ИИ в медицине, а научиться его тестировать так, чтобы мы могли быть уверены: когда он говорит «я вижу рак», он действительно его видит. А не просто убедительно описывает то, чего нет.

Добавить комментарий