Compass Investments 谷歌在保持准确性的同时缩小了人工智能的内存--但有一个问题：谷歌公司表示，其TurboQuant算法可以将人工智能领域的

📌 谷歌在保持准确性的同时缩小了人工智能的内存–但有一个问题：谷歌公司表示，其TurboQuant算法可以将人工智能领域的一个关键内存限制缩小至少六倍，而输出准确性不受影响。

文章发表后，包括美光（Micron）、西部数据（Western Digital）和希捷（Seagate）在内的内存制造商股价下跌. Robinhood

文章发表后，包括美光（Micron）、西部数据（Western Digital）和希捷（Seagate）在内的内存制造商股价下跌。

提出的方法压缩的是用于推理的内存，而不是模型权重本身，而且只在研究测试集上进行了测试。

本周三，谷歌研究院发布了TurboQuant，这是一种压缩算法，可以将计算的主内存瓶颈减少至少6倍，同时保持完全的准确性。

这篇论文计划在ICLR 2026会议上发表，网络上立即引起了热烈反响。

Cloudflare的负责人马修-普林斯（Matthew Prince）将其与谷歌的DeepSeek时刻相提并论。就在同一天，美光、西部数据和希捷等内存制造商的股价都出现了下跌。

真的是这样吗？

提高量化效率本身已经是一项重大成就。然而，”精度零损失 “的说法还需要进一步的理解。

TurboQuant专注于KV缓存，这是GPU内存的一个区域，对话过程中语言模型需要记住的所有内容都存储在这里。

当上下文窗口扩展到数百万个标记时，这些缓存每个会话可能会增长到数百GB。这是真正的瓶颈。不是计算能力，而是纯内存占用。

常见的压缩方法试图通过将数值四舍五入来减少这些缓存，例如，将 32 位浮点数改为 16 位数，或将 8 位整数改为 4 位整数。打个比方，想象一下将图像分辨率从 4K 降到全高清，再降到 720p，以此类推。不难看出，图像是一样的，但 4K 的细节更多。

诀窍在于，他们必须在存储压缩数据的同时存储额外的量化常数，这样模型才不会开始出错。这些常数会使每个值增加1到2比特，从而部分抵消了节省下来的数据。

谷歌设定了2029年的最后期限来消除量子威胁–这对比特币来说是个问题吗？

谷歌已经不再把量子计算当作一个遥远的未来问题。本周二，该公司公布了一项正式计划，在2029年之前将其整个基础设施过渡到后量子加密技术（PQC），称这一举动非常紧急，并指出量子能力可能会比想象中来得更快。

该出版物说：作为量子技术和PQC的领导者，我们有责任树立榜样，并分享我们雄心勃勃的时间表。

量子机器将对现有的加密技术构成严峻挑战。

TurboQuant 宣称可以完全消除这些额外成本。

为此，我们使用了两种辅助算法。PolarQuant将矢量中的大小和方向分开，而QJL（Quantised Johnson-Lindenstrauss ）则处理微小的残余误差，将其减少到一个符号位，正或负，不保留任何常数。

谷歌声称，这样做的结果是，对于支撑转换模型运行的注意力操作来说，在数学上没有扭曲。

在使用 Gemma 和 Mistral 模型进行的测试运行中，TurboQuant 在四倍压缩的情况下表现出了完全精确的性能，包括在搜索大海捞针时的完美准确性，即使在多达 104,000 个标记的情况下也是如此。

Bitcoin

$62,900.81

BTC -0.32%

Ethereum

$1,674.70

ETH 0.87%

Binance Coin

$602.54

BNB 1.26%

XRP

$1.17

XRP 2.48%

Dogecoin

$0.09

DOGE 0.96%

Cardano

$0.17

ADA 3.37%

Solana

$66.55

SOL 1.48%