ИИ против преждевременных родов: как школьник и студент обогнали экспертов

ИИ против преждевременных родов: как школьник и студент обогнали экспертов

 

По мере того как широкие массы осваивают большие языковые модели (LLM) вроде ChatGPT, Claude и Gemini, учёные изучают, как эти инструменты искусственного интеллекта могут улучшить медицинские исследования.

Некоторые утверждают, что LLM способны резко повысить эффективность работы учёных при выполнении определённых типов медицинских задач. Исследование, опубликованное в феврале в журнале Cell Reports Medicine, служит ярким примером такого подхода.

В этом исследовании использовались огромные массивы биомедицинских данных пациентов для прогнозирования риска преждевременных родов. Подобные предсказания уже много лет являются сильной стороной ИИ и были возможны даже с помощью традиционных методов машинного обучения. Но данная работа примечательна тем, что LLM позволили начинающим исследователям — магистранту и старшекласснику — эффективно генерировать очень точный программный код.

Этот код предсказывал гестационный возраст ребёнка при рождении и вероятность преждевременных родов. Результаты ИИ совпали с анализами экспертных команд (которые использовали код, написанный людьми), а в одном случае даже превзошли их.

«То, что я увидела у молодых учёных — насколько эффективными они могут быть, — действительно вдохновило и поразило меня», — рассказала соавтор исследования Марина Сирота, временный директор Института вычислительных наук о здоровье имени Бейкера при Калифорнийском университете в Сан-Франциско.

Одно из главных обещаний LLM — снизить порог входа для исследователей, позволяя им писать код и проводить сложный анализ. Но это сопряжено с рисками. По мере стремительного совершенствования ИИ учёным предстоит решить множество вопросов: какие ограничения нужно ввести, чтобы обеспечить точность ИИ? Как измерять его результаты? И как изменится роль человека-исследователя, когда эти системы станут повсеместными?

Как работает предсказание с помощью ИИ

Команда Сироты использовала данные из международных конкурсов DREAM Challenge, где команды учёных решают сложные биомедицинские задачи на общих наборах данных.

В открытых наборах данных были:

  • транскриптомика крови (молекулы РНК, отражающие активность генов),

  • эпигенетическая информация из клеток плаценты (химические метки на ДНК, управляющие включением генов),

  • данные микробиома (бактерии в образцах вагинальной жидкости).

Все эти данные были размечены: к ним прилагались «метки» — интересующие нас исходы, а именно гестационный возраст и преждевременные роды. Алгоритмы машинного обучения обучаются находить связи между типом образца и его меткой. Например, они могут выявить, что образцы микробиома с определённым набором бактерий часто принадлежат женщинам, родившим раньше срока.

После обучения на части данных алгоритм проверяют на образцах без меток — может ли он предсказать, какая метка должна быть? Например, правильно ли он отнесёт образцы с бактериальным составом, похожим на те, что в обучающей выборке были связаны с высоким риском преждевременных родов.

Затем остаётся только оценить точность моделей и сравнить их между собой. «Точность» в контексте машинного обучения имеет конкретное определение: количество правильных предсказаний, делённое на общее количество предсказаний.

Код, написанный человеком и ИИ: чей лучше?

Конкурс DREAM Challenge был направлен на поиск связей между медицинскими показателями и риском преждевременных родов. Обычно такая работа требует от обученных биоинформатиков месяцев усилий. Но вместо того чтобы писать аналитический код самостоятельно, молодые исследователи в недавнем исследовании дали каждому из восьми LLM один-единственный запрос, описывающий доступные данные и задачу: предсказать гестационный возраст или преждевременные роды.

Какие LLM тестировались:

  • ChatGPT o3-mini-high

  • ChatGPT 4o

  • DeepSeek R1

  • Gemini 2.0 FlashExpThink

  • Qwen 2.5 Coder

  • Llama 3.2

  • Phi-4

  • DeepSeek-R1-Distill-Qwen

Четыре из восьми моделей (DeepSeek R1, Gemini, а также o3-mini-high и 4o от ChatGPT) выдали код, который успешно запустился. Лучший из них — o3-mini от OpenAI — оказался точен настолько же, насколько исходные человеческие команды DREAM Challenge. А для одной задачи (оценка гестационного возраста по эпигенетическим данным) он превзошёл людей.

Более того: молодые исследователи получили результаты примерно за три месяца и подали рукопись через шесть месяцев. Тогда как исходные команды DREAM Challenge тратили на то же самое годы.

«Нам повезло с процессом рецензирования, но шесть месяцев на получение результатов и написание статьи — это невероятно, особенно для начинающего учёного», — отметила Сирота.

Преждевременные роды (до 37 полных недель беременности) затрагивают около 11% младенцев по всему миру. Возможность предсказывать, у каких беременных риск выше, позволила бы усилить наблюдение и лечение, защитить ребёнка и повысить шансы на доношенную беременность.

Не только написание кода

Данные, использованные в статье Cell Reports Medicine, уже были в хорошей форме — в таблицах, которые ИИ легко читал. «Но мы можем ускорить и очистку, и нормализацию данных с помощью генеративного ИИ», — говорит Сирота.

Её команда уже разрабатывает другие приложения на основе LLM, включая инструмент Chat PTB (сокращение от «preterm birth» — преждевременные роды). Этот инструмент на базе ChatGPT встроен в статьи исследовательской сети March of Dimes. Вместо того чтобы вручную просматривать литературу, исследователи могут задать вопрос Chat PTB и получить синтезированный ответ со ссылками — задача, которая раньше занимала часы, теперь решается за секунды.

На пути к «агентному» ИИ

Но инструменты вроде Chat PTB — лишь первая волна. Медицинские исследования с ИИ движутся к «агентному» ИИ: системам, которые не просто отвечают на один запрос, а выполняют многошаговые рабочие процессы с растущей автономией.

Такой агент способен проверять и уточнять свою работу до достижения цели. Он может действовать от имени пользователя — искать в интернете, запускать код, а не только писать его.

Этот сдвиг в сторону большей автономии ИИ и меньшего контроля со стороны человека несёт как огромный потенциал, так и серьёзные риски. В исследовании, опубликованном в январе в журнале Nature Biomedical Engineering, учёные оценили LLM на 293 задачах по написанию кода из 39 биомедицинских исследований. Когда LLM сами придумывали рабочие процессы, общая точность оказалась ниже 40%.

Решение нашлось в разделении планирования и исполнения: ИИ создавал пошаговый план анализа, который человек-исследователь проверял до того, как писался хоть один строчка кода. Это повысило точность до 74%.

«Цель — не заставлять исследователей слепо доверять системе ИИ, — пояснил соавтор исследования Цзыфэн Ван. — Цель — разработать такие рамки, где рассуждения, планирование и промежуточные шаги будут достаточно прозрачными, чтобы учёные могли контролировать и проверять процесс».

Почему важны ограничения и какую планку мы ставим перед ИИ

Учёные предостерегают: риски не означают, что нужно избегать ИИ, но к его работе надо применять ту же строгость, что и к результатам любого другого соавтора.

«Вопрос не в том, ускоряют ли LLM науку или создают «цифровой шлак», — сказал Йен Маккалох, профессор компьютерных наук Университета Джонса Хопкинса. — Вопрос в том, как мы используем эту мощную технологию в рамках научного метода».

Маккалох предостерегает от невозможного стандарта. Люди склонны считать, что ИИ ошибается, и преуменьшать человеческие ошибки. Анекдотический пример: клиент-консультант жаловался на 15% ошибок ИИ в одной задаче, не осознавая, что у его сотрудников-людей процент ошибок составлял 25%.

«Цель ИИ — не совершенство, — говорит Маккалох, — а работа лучше, чем у людей».

Для этого нужно договориться о том, как измерять успех ИИ. Доктор Итан Го, врач-исследователь из Стэнфорда, указывает, что в здравоохранении до сих пор нет стандартизированных ориентиров для оценки работы ИИ. Поскольку LLM обучаются на огромных объёмах данных, «создавать такие ориентиры очень дорого». Кроме того, ИИ совершенствуется так быстро, что большинство коммерческих моделей быстро превосходят немногие существующие тесты и делают их бесполезными. Команда Го в сети AI Research and Science Evaluation (ARISE) Healthcare Network работает над созданием таких стандартов к концу этого года.

Что будет, когда ИИ начнёт ставить диагнозы?

Уже сейчас учёные экспериментируют с LLM не только для анализа данных, но и для помощи в постановке диагноза. Недавнее рандомизированное исследование Го и его коллег показало, что когда врачи использовали LLM для поддержки своих решений, качество диагностики повышалось — но только если врач умел правильно формулировать запрос и критически оценивать ответ ИИ. Парадокс в том, что менее опытные врачи, полностью полагавшиеся на ИИ, ошибались чаще, чем те, кто не использовал его вовсе.

Это подводит к ключевому выводу: ИИ в медицине — это не замена человека, а инструмент, требующий новой грамотности. Умение формулировать запрос (промпт-инжиниринг) становится базовым навыком исследователя, а способность верифицировать результаты ИИ — критически важной компетенцией.

Также на повестке дня — этические вопросы. Если LLM обучается на исторических данных, а в этих данных были системные перекосы (например, недостаточное обследование определённых групп пациентов), модель может воспроизводить и даже усиливать эти предвзятости. Кто несёт ответственность за ошибочный прогноз — разработчик модели, исследователь, использовавший её, или клиницист, принявший решение на основе этого прогноза? Чёткого ответа пока нет.

Несмотря на всю неопределённость вокруг стандартов и ограничений, учёные, опрошенные Live Science, сходятся в одном: ИИ должен быть в лаборатории, но не без присмотра.

«Мы должны быть осторожны и не забывать то, что мы знаем о научном процессе, — подытожила Сирота. — Но я считаю, что возможности колоссальны».

Добавить комментарий