DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

pengngychita · 发表于 2025-2-21 03:20:31

歪睿老哥

电子发烧友网报道（文/梁浩斌）周二xAI发布了Grok3，这个马斯克称之为“地球上最聪明的AI”抢占了所有人的眼球。

为了打造最强AI大模型，xAI投入了20万块H100 GPU，计算资源是上一代Grok2的15倍左右。在Benchmarks中，Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。

不过用如此大规模的算力集群，花费上一代15倍的计算资源投入，业界认为Grok3的性能只是略微提升了大模型能力上限，实际提升幅度低于算力投入的预期。这或许也预示着大模型的Scaling Laws或许已经出现边际效益递减。

就在Grok3发布的当天，DeepSeek团队也发表了一篇论文（https://arxiv.org/pdf/2502.11089），介绍了一种新的稀疏注意力机制（Natively Sparse Attention,NSA），用于提升长文本训练和推理的效率，并具备硬件对齐和端到端训练的特性。

截至19日下午，这篇推文在X上已经有超过180万观看量。值得一提的是，DeepSeek创始人梁文锋也出现在这篇论文的作者名单中。下面我们就来看一下这篇论文有哪些创新点。

https://user.guancha.cn/main/content?id=1385228

		自动登录	找回密码
密码			立即注册

DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

浏览过的版块