📌 Google, doğruluğu korurken yapay zeka belleğini küçültüyor – ama bir sorun var: transkript
– Google Corp. TurboQuant algoritmasının yapay zeka alanındaki önemli bir bellek sınırlamasını en az altı kat küçültebildiğini ve çıktı doğruluğunun etkilenmediğini söyledi.
Micron, Western Digital ve Seagate gibi bellek üreticilerinin hisseleri makalenin yayınlanmasının ardından düşüşe geçti.
Önerilen yöntem, model ağırlıklarını değil, çıkarım için kullanılan belleği sıkıştırıyor ve yalnızca araştırma test setleri üzerinde test edildi.
Çarşamba günü Google Research, tam doğruluğu korurken hesaplama için ana bellek darboğazını en az 6 kat azaltan bir sıkıştırma algoritması olan TurboQuant’ı tanıttı.
Makalenin ICLR 2026 konferansında sunulması planlanıyor ve ağdaki ilk tepki çok büyük oldu.
Cloudflare başkanı Matthew Prince, bunu Google’ın DeepSeek anıyla karşılaştırdı. Aynı gün Micron, Western Digital ve Seagate gibi bellek üreticilerinin hisse senedi fiyatları düştü.
Bu gerçekten doğru mu?
Sayısallaştırma verimliliğini artırmak zaten başlı başına önemli bir başarıdır. Ancak, “sıfır doğruluk kaybı” iddiası daha fazla anlayış gerektirmektedir.
TurboQuant, bir diyalog sırasında dil modelinin hatırlaması gereken her şeyin depolandığı GPU belleğinin bir alanı olan KV önbelleğine odaklanmıştır.
Bağlam pencereleri milyonlarca jetona genişledikçe, bu önbellekler oturum başına yüzlerce gigabayta kadar büyüyebilir. Bu gerçek bir darboğazdır. Hesaplama gücü değil, saf bellek ayak izi.
Yaygın sıkıştırma yaklaşımları, sayısal değerleri aşağı yuvarlayarak bu önbellekleri azaltmaya çalışır – örneğin, 32 bit kayan nokta sayılarından 16 bit sayılara veya 8 bitten 4 bit tam sayılara geçilir. Daha iyi bir benzetme için, bir görüntünün çözünürlüğünü 4K’dan Full HD’ye, ardından 720p’ye ve bu şekilde düşürdüğünüzü düşünün. Aynı görüntü olduğunu görmek kolay, ancak 4K’da daha fazla ayrıntı var.
İşin püf noktası, modelin yanlış gitmeye başlamaması için sıkıştırılmış verilerle birlikte ek niceleme sabitleri depolamak zorunda olmalarıdır. Bu sabitler değer başına 1 ila 2 bit ekleyerek tasarrufu kısmen dengeliyor. Google kuantum tehdidini etkisiz hale getirmek için 2029’a kadar süre verdi – bu Bitcoin için bir sorun mu?
Google kuantum bilişimi uzak bir gelecek sorunu olarak görmeyi bıraktı. Salı günü şirket, 2029 yılına kadar tüm altyapısını kuantum sonrası kriptografiye (PQC) geçirmek için resmi bir plan açıkladı ve bu hamleyi acil olarak nitelendirerek kuantum yeteneklerinin göründüğünden daha erken gelebileceğini belirtti.
Kuantum teknolojisi ve PQC’de bir lider olarak, örnek olma ve iddialı takvimimizi paylaşma sorumluluğumuz var dedi. Kuantum makineleri mevcut kriptografik sistemler için ciddi bir zorluk teşkil edecek…
TurboQuant bu ek maliyetlerin tamamen ortadan kaldırılacağını ilan ediyor.
Bunu başarmak için iki yardımcı algoritma kullanılmaktadır. PolarQuant vektörlerdeki büyüklük ve yönü ayırırken, QJL (Quantised Johnson-Lindenstrauss) küçük kalıntı hatasını ele alır ve herhangi bir sabiti korumadan pozitif veya negatif tek bir işaret bitine indirger.
Google’ın iddiasına göre sonuç, dönüşüm modellerinin işleyişini destekleyen dikkat işlemleri için matematiksel olarak bozulmamış bir sonuçtur.
Gemma ve Mistral modellerinin kullanıldığı test çalışmalarında TurboQuant, 104.000 jetona kadar bağlamlarda bile samanlıkta iğne ararken mükemmel doğruluk da dahil olmak üzere dört kat sıkıştırmada tam hassasiyet düzeyinde performans gösterdi.