Google тихо похоронила эпоху трансформеров: новая «растущая память» для нейросетей меняет всё
Последние семь лет вся индустрия искусственного интеллекта стояла на одной архитектуре. ChatGPT, Claude, Gemini, любая крупная модель, которую вы знаете, под капотом использует трансформер. Это была общая база, на которой строилось буквально всё. И вот Google выпускает исследование, которое способно отправить эту эпоху в учебники истории.
У трансформеров есть фатальная слабость, о которой обычно не говорят в рекламных презентациях. Чтобы удержать контекст, модель вынуждена сравнивать каждое слово с каждым другим словом. Это так называемая квадратичная сложность. Звучит безобидно, пока ваш запрос короткий. Но стоит промпту вырасти, и вычислительные затраты буквально взрываются: чем длиннее текст, тем дороже и медленнее работает модель.
Долгое время у инженеров была альтернатива, старые добрые рекуррентные нейросети, RNN. Они дёшевы и быстры, но у них фиксированный объём памяти. Дайте такой модели длинный документ, и она начнёт страдать амнезией, забывая то, что было в начале. Именно поэтому от RNN в своё время и ушли в пользу трансформеров.
И вот тут появляется работа Google под названием Memory Caching: RNNs with Growing Memory. Её авторы из Google Research, Корнелльского университета и USC предлагают элегантное решение проблемы, которая мучила всю отрасль.
Вместо того чтобы держать у RNN жёсткую память, которая постоянно перезаписывается поверх старой, Google дала ей кнопку «сохранить». Метод называется Memory Caching, кэширование памяти. Если упростить, сеть периодически делает контрольные точки своих скрытых состояний и складывает их в кэш, вместо того чтобы безвозвратно затирать. Благодаря этому эффективная память RNN перестаёт быть фиксированной и начинает расти вместе с длиной текста.
Результаты переписывают привычные представления об эффективности. На задачах понимания длинного контекста и интенсивного запоминания эти новые RNN с кэшированием памяти практически сравнялись с трансформерами по точности, но без их взрывных вычислительных затрат. По сути, метод аккуратно сшивает два мира: дешёвую скорость RNN и мощную ёмкость трансформера.
Почему это важно. Мы потратили миллиарды долларов на масштабирование трансформеров, потому что искренне считали это единственным способом научить ИИ удерживать длинный разговор. Google же показала, что нам не обязательно каждый раз перемалывать всю историю заново. Иногда вместо больших мышц нужна просто более умная кэш-память.
Если подход масштабируется, последствия могут быть огромными: более дешёвый инференс, работа с длинным контекстом без бешеных счетов за GPU и модели, которые помнят больше, а стоят меньше. Пока это исследование, а не готовый продукт, и трансформеры никуда не исчезнут завтра. Но само направление выглядит как серьёзная заявка на то, чтобы пересобрать фундамент, на котором стоит современный ИИ.

