Compass Investments Google schrumpft den KI-Speicher bei gleichbleibender

📌 Google schrumpft den KI-Speicher bei gleichbleibender Genauigkeit – aber es gibt einen Haken: transcript

Google Corp. sagte, dass sein TurboQuant-Algorithmus eine wichtige Speicherbeschränkung im KI-Bereich um mindestens das Sechsfache verringern kann, während die Genauigkeit der Ausgabe nicht beeinträchtigt wird. - Aktien von Speicherherstellern wie Micron, Western Digital und Seagate fielen nach der Veröffentlichung des Artikels. . Token

– Google Corp. sagte, dass sein TurboQuant-Algorithmus eine wichtige Speicherbeschränkung im KI-Bereich um mindestens das Sechsfache verringern kann, während die Genauigkeit der Ausgabe nicht beeinträchtigt wird. – Aktien von Speicherherstellern wie Micron, Western Digital und Seagate fielen nach der Veröffentlichung des Artikels.

Die vorgeschlagene Methode komprimiert den für die Inferenz verwendeten Speicher, nicht die Modellgewichte selbst, und wurde bisher nur an Testreihen aus der Forschung getestet.

Am Mittwoch stellte Google Research TurboQuant vor, einen Komprimierungsalgorithmus, der den Engpass im Hauptspeicher für die Berechnung um mindestens das Sechsfache reduziert und dabei die volle Genauigkeit beibehält.

Das Papier soll auf der Konferenz ICLR 2026 vorgestellt werden, und die unmittelbare Reaktion im Netz war überwältigend.

Der Chef von Cloudflare, Matthew Prince, verglich es mit Googles DeepSeek-Moment. Am selben Tag fielen die Aktienkurse von Speicherherstellern wie Micron, Western Digital und Seagate.

Ist das wirklich wahr?

Die Verbesserung der Quantisierungseffizienz ist an sich schon eine bedeutende Leistung. Die Behauptung “kein Verlust an Genauigkeit” erfordert jedoch ein besseres Verständnis.

TurboQuant konzentriert sich auf den KV-Cache, einen Bereich des GPU-Speichers, in dem alles gespeichert wird, was sich das Sprachmodell während eines Dialogs merken muss.

Wenn Kontextfenster auf Millionen von Token anwachsen, können diese Caches auf Hunderte von Gigabytes pro Sitzung anwachsen. Dies ist der wahre Engpass. Nicht die Rechenleistung, sondern der reine Speicherplatzbedarf.

Übliche Komprimierungsansätze versuchen, diese Caches zu reduzieren, indem sie numerische Werte abrunden – zum Beispiel von 32-Bit-Gleitkommazahlen auf 16-Bit-Zahlen oder von 8-Bit- auf 4-Bit-Ganzzahlen. Stellen Sie sich zur besseren Veranschaulichung vor, Sie reduzieren die Auflösung eines Bildes von 4K auf Full HD, dann auf 720p und so weiter. Es ist leicht zu erkennen, dass es sich um dasselbe Bild handelt, aber in 4K gibt es mehr Details.

Der Trick ist, dass sie zusammen mit den komprimierten Daten zusätzliche Quantisierungskonstanten speichern müssen, damit das Modell nicht aus dem Ruder läuft. Diese Konstanten fügen 1 bis 2 Bits pro Wert hinzu, was die Einsparungen teilweise wieder aufhebt. Google setzt eine Frist bis 2029, um die Quantenbedrohung zu neutralisieren – ist das ein Problem für Bitcoin?

Google hat aufgehört, Quantencomputing als ein Problem der fernen Zukunft zu behandeln. Am Dienstag stellte das Unternehmen einen formellen Plan vor, um seine gesamte Infrastruktur bis 2029 auf Post-Quantum-Kryptographie (PQC) umzustellen. Es bezeichnete den Schritt als dringend und stellte fest, dass Quantenfähigkeiten vielleicht früher kommen, als es scheint.

Als führendes Unternehmen im Bereich der Quantentechnologie und PQC haben wir die Verantwortung, mit gutem Beispiel voranzugehen und unseren ehrgeizigen Zeitplan mitzuteilen, heißt es in der Veröffentlichung. Quantenmaschinen werden eine ernsthafte Herausforderung für bestehende kryptografische S…

TurboQuant proklamiert die vollständige Eliminierung dieser zusätzlichen Kosten.

Um dies zu erreichen, werden zwei Hilfsalgorithmen verwendet. PolarQuant trennt Betrag und Richtung in Vektoren, während QJL (Quantised Johnson-Lindenstrauss) den winzigen Restfehler behandelt und ihn auf ein einziges Bit mit positivem oder negativem Vorzeichen reduziert, ohne irgendwelche Konstanten zu erhalten.

Das Ergebnis, so Google, ist ein mathematisch unverzerrtes Ergebnis für die Aufmerksamkeitsoperationen, die der Funktionsweise von Transformationsmodellen zugrunde liegen.

In Testläufen mit den Gemma- und Mistral-Modellen zeigte TurboQuant eine Leistung auf dem Niveau der vollen Präzision bei vierfacher Komprimierung, einschließlich perfekter Genauigkeit bei der Suche nach einer Nadel im Heuhaufen selbst in Kontexten mit bis zu 104.000 Token.