📌 Google уменьшает объём памяти ИИ, сохраняя при этом точность но есть подвох: расшифровка
– Корпорация Google заявила, что её алгоритм TurboQuant способен сжать ключевое ограничение памяти в сфере ИИ как минимум в шесть раз, при этом точность вывода не страдает.
Акции компаний-производителей памяти, в числе которых Micron, Western Digital и Seagate, снизились после выхода данной статьи.
Предложенный метод сжимает память, используемую для инференса, а не сами веса моделей, и был апробирован только на исследовательских тестовых наборах.
В среду Google Research представила TurboQuant алгоритм компрессии, который уменьшает главное узкое место в памяти для вычислений не менее чем в 6 раз, сохраняя при этом полную точность.
Доклад планируется представить на конференции ICLR 2026, и немедленная реакция в сети была бурной.
Глава Cloudflare, Мэттью Принс, сравнил это с моментом DeepSeek от Google. В тот же день котировки акций производителей памяти, таких как Micron, Western Digital и Seagate, пошли вниз.
Так ли это на самом деле?
Само по себе повышение эффективности квантования уже значительное достижение. Однако заявление о “нулевой потере точности” требует дополнительного понимания.
TurboQuant сфокусирован на KV-кэше области памяти GPU, где сохраняется всё, что языковая модель должна помнить в ходе диалога.
По мере того как окна контекста расширяются до миллионов токенов, эти кэши могут разрастись до сотен гигабайт на одну сессию. Это и есть истинное препятствие. Не мощность вычислений, а чистый объем памяти.
Общепринятые подходы к сжатию пытаются уменьшить эти кэши, округляя численные значения вниз например, переход от 32-битных чисел с плавающей запятой к 16-битным, или от 8-битных к 4-битным целым. Для лучшей аналогии, представьте уменьшение разрешения изображения с 4K до Full HD, затем до 720p и так далее. Легко заметить, что это одно и то же изображение, но в 4K деталей больше.
Хитрость в том, что им приходится сохранять дополнительные “константы квантования” вместе со сжатыми данными, чтобы модель не начала ошибаться. Эти константы добавляют от 1 до 2 бит на значение, частично нивелируя полученную экономию.
Google устанавливает срок до 2029 года для нейтрализации квантовой угрозы является ли это проблемой для Биткоина?
В Google перестали рассматривать квантовые вычисления как проблему отдаленного будущего. Во вторник компания обнародовала официальный план перевода всей своей инфраструктуры на постквантовую криптографию (PQC) к 2029 году, назвав этот шаг неотложным и отметив, что квантовые возможности “могут наступить раньше, чем кажется”.
“Как лидер в области квантовых технологий и PQC, мы несем ответственность за то, чтобы задавать пример, и делимся нашим амбициозным графиком”, говорится в публикации. “Квантовые машины станут серьезным вызовом для существующих криптографических с…
TurboQuant провозглашает полное устранение этих дополнительных расходов.
Для достижения этого используются два вспомогательных алгоритма. PolarQuant разделяет величину и направление в векторах, в то время как QJL (Quantized Johnson-Lindenstrauss) обрабатывает крошечную остаточную погрешность, сводя её к одному знаковому биту, положительному или отрицательному, без сохранения каких-либо констант.
В результате, по утверждению Google, получается математически неискаженный результат для операций внимания, которые лежат в основе работы трансформерных моделей.
В тестовых прогонах с использованием моделей Gemma и Mistral, TurboQuant продемонстрировал производительность на уровне полной точности при четырехкратном сжатии, включая идеальную точность при поиске “иголки в стоге сена” даже в контексте до 104 000 токенов.