Переосмысленный коллинеарность: нейросеть бросает вызов устоявшимся догмам геофизики
Является ли коллинеарность — тенденция переменных быть связанными друг с другом — всегда проблемой в машинном обучении? Долгое время в статистическом машинном обучении преобладало мнение, что это так, поскольку линейные модели, такие как линейная регрессия, становятся нестабильными, если использовать коллинеарные переменные в качестве входных параметров.
В новом исследовании Сюй и др. [2026] демонстрируют, что, хотя это представление применимо ко многим алгоритмам, используемым для группировки схожих фаций в сейсмических данных, оно неверно для самоорганизующихся карт Кохонена (разновидности алгоритма кластеризации). Авторы пришли к такому выводу, проанализировав как синтетические, так и реальные данные, включая сейсмическую информацию и геологические карты. Это поистине захватывающее открытие, поскольку могут существовать и другие алгоритмы, устойчивые к проблеме коллинеарности, и это имеет значение далеко за пределами геофизики.
Цитата: Сюй, Л., Фелтрин, Л. и Грин, Э. К. Р. (2026). Переосмысление коллинеарности в самоорганизующихся картах: Данные классификации геофизических данных. Journal of Geophysical Research: Machine Learning and Computation, 3, e2025JH001107. https://doi.org/10.1029/2025JH001107
— Седрик Джон, редактор JGR: Machine Learning and Computation
Это исследование включено в специальную коллекцию AGU «Развитие интерпретируемых методов ИИ/МО для более глубокого понимания и механистического осмысления в науках о Земле: за пределами прогностических способностей».
Продолжение:
Работа Сюя и его коллег открывает новую главу в дискуссии о применимости классических статистических допущений в эпоху интеллектуального анализа данных. Традиционно считалось, что коллинеарность, или мультиколлинеарность, искажает результаты моделирования, создавая ложные корреляции и повышая дисперсию оценок параметров. Однако, как показало исследование на примере самоорганизующихся карт (SOM), нейросетевые подходы, основанные на конкурентном обучении и топологическом сохранении данных, могут не только игнорировать «вредные» связи между переменными, но и использовать их для более тонкой кластеризации.
Используя синтетические сейсмические профили и эталонные геологические карты, ученые обнаружили, что SOM сохраняют устойчивость даже при высокой степени корреляции входных признаков. Вместо того чтобы «переобучаться» на шуме, самоорганизующиеся карты выделяли устойчивые паттерны фаций, которые коррелировали с реальными геологическими структурами. Это позволяет предположить, что SOM могут стать незаменимым инструментом при интерпретации сложных геофизических данных, где коллинеарность неизбежна (например, при совместном анализе нескольких сейсмических атрибутов).
«Мы стоим на пороге пересмотра многих «аксиом» применительно к машинному обучению, — комментирует один из авторов исследования. — То, что убивает линейную регрессию, может быть пищей для нейронной сети. Главное — понимать внутреннюю кухню алгоритма». В будущем авторы планируют протестировать устойчивость к коллинеарности других алгоритмов, включая градиентный бустинг и глубокие нейронные сети, чтобы создать «карту устойчивости» методов машинного обучения для наук о Земле.