Compass Investments Google réduit la mémoire de l\'IA tout en maintenant

📌 Google réduit la mémoire de l’IA tout en maintenant la précision – mais il y a un hic : transcript

Google Corp. a déclaré que son algorithme TurboQuant peut réduire dau moins six fois une limitation clé de la mémoire dans le domaine de lIA tout en maintenant la précision de la sortie. . Ont

-Google Corp. a déclaré que son algorithme TurboQuant peut réduire d’au moins six fois une limitation clé de la mémoire dans le domaine de l’IA tout en maintenant la précision de la sortie.

Les actions des fabricants de mémoire, dont Micron, Western Digital et Seagate, ont baissé après la publication de l’article.

La méthode proposée compresse la mémoire utilisée pour l’inférence, et non les poids des modèles eux-mêmes, et n’a été testée que sur des ensembles de tests de recherche.

Mercredi, Google Research a dévoilé TurboQuant, un algorithme de compression qui réduit d’au moins six fois le goulot d’étranglement de la mémoire principale pour le calcul, tout en conservant une précision totale.

L’article devrait être présenté lors de la conférence ICLR 2026, et la réaction immédiate sur le réseau a été impressionnante.

Le directeur de Cloudflare, Matthew Prince, l’a comparé à DeepSeek de Google. Le même jour, les cours des actions des fabricants de mémoire tels que Micron, Western Digital et Seagate ont chuté.

Est-ce vraiment vrai ?

L’amélioration de l’efficacité de la quantification est déjà une réalisation importante en soi. Cependant, l’affirmation selon laquelle il n’y aurait “aucune perte de précision” nécessite une compréhension plus approfondie.

TurboQuant se concentre sur le cache KV, une zone de la mémoire du GPU où est stocké tout ce dont le modèle de langage doit se souvenir au cours d’un dialogue.

Lorsque les fenêtres contextuelles s’étendent à des millions de tokens, ces caches peuvent atteindre des centaines de gigaoctets par session. C’est là le véritable goulot d’étranglement. Il ne s’agit pas de puissance de calcul, mais d’empreinte mémoire pure.

Les approches de compression courantes tentent de réduire ces caches en arrondissant les valeurs numériques vers le bas – par exemple, en passant de nombres à virgule flottante de 32 bits à des nombres de 16 bits, ou de nombres entiers de 8 bits à des nombres entiers de 4 bits. Pour une meilleure analogie, imaginons que l’on réduise la résolution d’une image de 4K à Full HD, puis à 720p, et ainsi de suite. Il est facile de voir qu’il s’agit de la même image, mais qu’il y a plus de détails en 4K.

L’astuce consiste à stocker des constantes de quantification supplémentaires avec les données compressées afin que le modèle ne commence pas à se dérégler. Ces constantes ajoutent 1 à 2 bits par valeur, ce qui annule en partie les économies réalisées.

Google fixe une date limite de 2029 pour neutraliser la menace quantique – est-ce un problème pour Bitcoin ?

Google a cessé de considérer l’informatique quantique comme un problème futur lointain. Mardi, l’entreprise a dévoilé un plan formel de transition de l’ensemble de son infrastructure vers la cryptographie post-quantique (PQC) d’ici 2029, qualifiant cette démarche d’urgente et notant que les capacités quantiques pourraient arriver plus tôt qu’il n’y paraît.

En tant que leader de la technologie quantique et de la cryptographie post-quantique, nous avons la responsabilité de montrer l’exemple et de partager notre calendrier ambitieux, indique la publication.

Les machines quantiques poseront un sérieux défi aux systèmes cryptographiques existants….

-TurboQuant proclame l’élimination complète de ces coûts supplémentaires.

Deux algorithmes auxiliaires sont utilisés pour y parvenir. PolarQuant sépare la magnitude et la direction dans les vecteurs, tandis que QJL (Quantised Johnson-Lindenstrauss) gère la minuscule erreur résiduelle, la réduisant à un seul bit de signe, positif ou négatif, sans préserver aucune constante.

Google affirme qu’il en résulte un résultat mathématiquement non déformé pour les opérations d’attention qui sous-tendent le fonctionnement des modèles transformationnels.

Lors de tests utilisant les modèles Gemma et Mistral, TurboQuant a démontré des performances au niveau de la précision totale avec une compression quatre fois supérieure, y compris une précision parfaite lors de la recherche d’une aiguille dans une botte de foin, même dans des contextes comportant jusqu’à 104 000 mots-clés.