Время как мера интеллекта: как длительность задач раскрывает возможности ИИ

Ученые предложили новый способ оценки возможностей искусственного интеллекта (ИИ) — по тому, насколько быстро системы могут справляться с задачами, которые обычно выполняют люди. Хотя современные модели ИИ превосходят человека в предсказании текста или решении тестовых заданий, их эффективность резко падает, когда речь заходит о сложных, многоэтапных проектах, таких как управленческая аналитика или долгосрочное планирование.
Чтобы измерить этот разрыв, исследователи из организации Model Evaluation & Threat Research (METR) предложили сравнивать, сколько времени тратит ИИ на выполнение задач разной сложности в сравнении с человеком. Результаты, опубликованные 30 марта в базе препринтов arXiv, показывают: чем дольше задача, тем хуже с ней справляется ИИ.
От минут к часам: где ИИ теряет эффективность
Ученые обнаружили, что модели ИИ успешно выполняют задания, на которые у человека уходит менее 4 минут, почти в 100% случаев. Однако для задач, требующих более 4 часов, показатель успеха падает до 10%. При этом новейшие модели, такие как GPT-4 и Claude 3 Opus, справляются с длительными задачами лучше, чем их предшественники.
Почему это важно?
-
Скорость прогресса: За последние 6 лет способность ИИ выполнять задачи с 50%-ной надежностью удваивается каждые 7 месяцев.
-
Прогноз на 2032 год: Если тенденция сохранится, ИИ сможет автоматизировать месячный объем работы программиста уже через 8 лет.
Как тестировали ИИ?
Для исследования использовали разные модели — от Sonnet 3.7 до GPT-4 — и давали им задачи разной сложности:
-
Простые (поиск фактов в Википедии, ответы на короткие вопросы).
-
Сложные (написание кода на CUDA, исправление ошибок в PyTorch).
Для оценки применяли инструменты HCAST (189 задач по машинному обучению и кибербезопасности) и RE-Bench (сравнение с инженерами-людьми). Также ученые ввели понятие «беспорядочности» задач — чем больше в них параллельных процессов и неопределенности, тем сложнее ИИ.
Что это значит для будущего?
-
Универсальные ИИ-агенты уже близко
По прогнозам экспертов, к 2026 году ИИ сможет решать разнообразные задачи в течение дней или недель, а не только короткие запросы.-
Для бизнеса: ИИ возьмет на себя рутинные процессы, снижая затраты и высвобождая время для творческих задач.
-
Для пользователей: Виртуальные ассистенты смогут планировать путешествия, следить за здоровьем или управлять финансами почти автономно.
-
-
Новый эталон для оценки ИИ
Традиционные тесты (например, точность ответов) не учитывают длительность и сложность реальных задач. Метрика на основе времени дает более практичное понимание возможностей ИИ.
«Измерение ИИ по времени выполнения задач — это не идеальный, но крайне полезный индикатор», — отмечает Сохроб Казеруниан, эксперт по ИИ из Vectra AI.
Вывод: ИИ учится думать дольше
Исследование подтверждает: главный вызов для ИИ — не знания, а способность удерживать внимание и координировать действия в долгосрочной перспективе. И если текущие темпы роста сохранятся, через несколько лет мы увидим истинно универсальные системы, способные заменить человека в куда более широком спектре задач, чем сегодня.
Остается вопрос: готово ли общество к такому будущему?