LLM теряют 95–99% сигнала при обучении — дело в архитектурном бутылочном горлышке

Исследователи показали, что модели обучаются в 20 раз медленнее возможного: почти весь сигнал обратного распространения гибнет при сжатии из пространства токенов во внутренний формат весов.

Автор: Michael Kokin ·

Прочитал статью с довольно неожиданной мыслью: возможно, все эти годы языковые модели обучались с колоссальной потерей эффективности.

Исследователи пишут, что современные нейросети можно тренировать в разы быстрее. В контролируемом эксперименте разрыв достигал 16 раз — и без новых данных, и без нового железа. Проблема кроется в самой архитектуре.

Как думает модель и как она говорит

Внутри себя модель думает «смыслами». Любую концепцию она сжимает в очень компактный код — условно, это набор из нескольких тысяч чисел. Это её внутренний язык, её оперативная память.

А общается она с нами словами. Для этого у неё есть словарь — десятки тысяч токенов (слов и их кусочков), у разных моделей по-разному.

Когда модель пишет вам ответ, процесс идёт изнутри наружу. Она берёт свою компактную мысль и разворачивает её, чтобы выбрать одно подходящее слово из словаря. Это работает отлично.

Где возникает бутылочное горлышко

Во время обучения процесс идёт в обратную сторону. Допустим, на тренировке модель выдала не то слово. Алгоритм формирует детальный отчёт: оценивает, насколько уместным было бы каждое слово из словаря. Получается гигантская сверхподробная карта того, как нужно было ответить.

И чтобы модель реально чему-то научилась, эту огромную карту ошибок нужно сжать и пропихнуть обратно в её внутренний формат — в те самые несколько тысяч чисел.

По сути, это как пытаться передать детализированную 4K-картинку через старый модем, сжимая её до размера иконки. Что-то, конечно, дойдёт, но основная часть нюансов уничтожится.

Исследователи измерили: в этом узком горлышке теряется от 95 до 99% полезного сигнала. Модель всё равно обучается, просто в 20 раз медленнее, чем могла бы. Именно поэтому компании и заливали проблему вычислительной мощностью.

Что это значит

Если это действительно так, то последние годы индустрия скупала видеокарты десятками тысяч, хотя главным тормозом была сама механика обновления весов.

Готового решения в статье пока нет. Но авторы, кажется, впервые так точно подсветили физику этого процесса: нейросети недообучаются не из-за нехватки данных, а потому что их архитектура буквально не пропускает в себя новые знания целиком.

arxiv.org/abs/2603.10145