eNewsTree.com
标题:
DeepSeek最新论文:训练速度提升9倍,推理速度快11倍!
[打印本页]
作者:
pengngychita
时间:
2025-2-21 03:20
标题:
DeepSeek最新论文:训练速度提升9倍,推理速度快11倍!
歪睿老哥
电子发烧友网报道(文/梁浩斌)周二xAI发布了Grok3,这个马斯克称之为“地球上最聪明的AI”抢占了所有人的眼球。
为了打造最强AI大模型,xAI投入了20万块H100 GPU,计算资源是上一代Grok2的15倍左右。在Benchmarks中,Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。
不过用如此大规模的算力集群,花费上一代15倍的计算资源投入,业界认为Grok3的性能只是略微提升了大模型能力上限,实际提升幅度低于算力投入的预期。这或许也预示着大模型的Scaling Laws或许已经出现边际效益递减。
就在Grok3发布的当天,DeepSeek团队也发表了一篇论文(
https://arxiv.org/pdf/2502.11089
),介绍了一种新的稀疏注意力机制(Natively Sparse Attention,NSA),用于提升长文本训练和推理的效率,并具备硬件对齐和端到端训练的特性。
截至19日下午,这篇推文在X上已经有超过180万观看量。值得一提的是,DeepSeek创始人梁文锋也出现在这篇论文的作者名单中。下面我们就来看一下这篇论文有哪些创新点。
https://user.guancha.cn/main/content?id=1385228
欢迎光临 eNewsTree.com (http://enewstree.com/discuz/)
Powered by Discuz! X3.2