📌 中国的人工智能实验室不仅仅创造了廉价的人工智能模型它还展示了主流行业方法的低效率。
– 中国的人工智能实验室不仅仅创造了廉价的人工智能模型–它还展示了主流行业方法的低效率。
DeepSeek 的突破表明,一个希望省钱的小团队可以重新思考建立人工智能模型的方式。据说,OpenAI 和 Anthropic 等科技巨头仅在计算能力上就花费了数十亿美元,而 DeepSeek 仅花费了 500 多万美元就取得了类似的成果。
该公司的模型包括 OpenAI 的 GPT-4o(OpenAI 最好的 LLM)、OpenAI 的 o1-OpenAI(目前最好的输出模型)和 Anthropic 的 Claude 3.5 Sonnet,后者达到或超过了许多基准,在 H800 GPU 上使用了约 2788 万小时进行全面训练。这个模型是如此优秀和高效,以至于几天之内它就跃居 iOS 应用类别的榜首,向 OpenAI 的霸主地位发起了挑战。该团队之所以能做到这一点,是因为他们使用了美国开发者想都不用想的技术,而这些技术在今天也不占主导地位。这些技术中最重要的也许是,DeepSeek 没有使用全精度,而是使用了 8 位学习,这将内存需求降低了 75% 。据我所知,人们对 8 位浮点学习还不是很了解。在美国,大多数培训计划仍然使用 FP16。
FP8 使用的内存和存储带宽是 FP16 的一半。对于拥有数十亿个参数的大型人工智能模型来说,这一缩减意义重大;DeepSeek 不得不使用较弱的硬件,但 OpenAI 从未遇到过这样的限制。
周一,中国人工智能公司DeepSeek(深度嗅探)给华尔街最喜欢的脚本蒙上了一层阴影,使比特币价格跌破98000美元大关。这家初创公司的研究人员发布了名为DeepSeek R1的开源人工智能模型,称该模型是最先进的OpenAI推理系统。他们说,得益于一种新的训练方法,DeepSeek R1的查询比旗舰OpenAI模型便宜98% ,成本也低得多。DeepSeek还一次性处理整个短语,而不是单个单词,该公司使用的另一种方法叫做 蒸馏,即较小的模型复制较大模型的结果,而无需在相同的知识库上进行训练。公司还使用了一种叫做 专家混合 的技术,它可以提高模型的效率。在传统模型中,所有参数总是处于活动状态,而 DeepSeek 系统使用了 6710 亿个参数,但在任何时候只有 370 亿个参数处于活动状态。这就像拥有一个庞大的专家团队,但只使用解决特定问题所需的专家。