Google представила TurboQuant — технологию, которая может кардинально снизить требования к памяти ИИ

hulio3343 27-03-2026, 12:19 25 Новости портала

TurboQuant представляет собой метод экстремального сжатия, ориентированный прежде всего на оптимизацию KV-кэша — ключевого компонента трансформерных моделей, который отвечает за «память» во время генерации текста. В процессе работы модели каждый токен преобразуется в набор представлений, называемых ключами (Key) и значениями (Value). Эти данные сохраняются, чтобы при генерации следующего слова не пересчитывать всё заново.

Именно поэтому KV-кэш играет критическую роль: он позволяет ускорить инференс, но при этом быстро разрастается по мере увеличения длины текста. С каждым новым токеном объём кэша увеличивается, а хранится он в высокоточной форме (обычно 16-битной или 32-битной). В результате KV-кэш может занимать до 80–90% всей памяти, используемой моделью во время работы, становясь главным ограничением для производительности и масштабирования.

TurboQuant решает эту проблему за счёт агрессивного, но интеллектуального сжатия. В основе технологии лежит продвинутая квантование — процесс перевода данных в более компактное представление с меньшим числом бит. Однако в отличие от стандартных методов, которые часто приводят к потере точности, TurboQuant использует комбинированный подход.

Сначала данные преобразуются в форму, более устойчивую к сжатию. Затем применяется математический аппарат, позволяющий сохранить структуру информации даже при сильном уменьшении точности. В частности, используются методы, основанные на случайных проекциях и принципах сохранения расстояний между векторами. Это важно, потому что в трансформерах ключевую роль играет не абсолютное значение чисел, а их взаимные отношения — именно они определяют, на какие части текста модель «обращает внимание».

Благодаря этому TurboQuant способен сжимать KV-кэш до крайне компактного состояния — вплоть до нескольких бит на значение — без заметного ухудшения качества. По сути, технология сохраняет «геометрию» данных, позволяя модели корректно работать даже с сильно упрощённым представлением.

Практический эффект такого подхода заключается в значительном снижении потребления памяти и ускорении работы моделей. Поскольку доступ к KV-кэшу становится быстрее, уменьшается задержка при генерации текста. Одновременно это открывает возможность увеличивать длину контекста и запускать более сложные модели на менее мощном оборудовании.

В более широком смысле TurboQuant может изменить подход к развитию ИИ. Вместо наращивания вычислительных ресурсов акцент смещается на оптимизацию самих данных и алгоритмов их хранения. Это делает искусственный интеллект более доступным, снижает стоимость его использования и упрощает масштабирование как в облаке, так и на пользовательских устройствах.

Источник: Research at Google

Информация
Комментировать статьи на сайте возможно только в течении 20 дней со дня публикации.

Google представила TurboQuant — технологию, которая может кардинально снизить требования к памяти ИИ

Оцените нас

А ещё мы есть в Telegram

Полезная информация