eNewsTree.com

 找回密码
 立即注册
查看: 826|回复: 0
打印 上一主题 下一主题

DeepSeek最新论文:训练速度提升9倍,推理速度快11倍!

[复制链接]
跳转到指定楼层
楼主
发表于 2025-2-21 03:20:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
歪睿老哥

电子发烧友网报道(文/梁浩斌)周二xAI发布了Grok3,这个马斯克称之为“地球上最聪明的AI”抢占了所有人的眼球。

为了打造最强AI大模型,xAI投入了20万块H100 GPU,计算资源是上一代Grok2的15倍左右。在Benchmarks中,Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。

不过用如此大规模的算力集群,花费上一代15倍的计算资源投入,业界认为Grok3的性能只是略微提升了大模型能力上限,实际提升幅度低于算力投入的预期。这或许也预示着大模型的Scaling Laws或许已经出现边际效益递减。

就在Grok3发布的当天,DeepSeek团队也发表了一篇论文(https://arxiv.org/pdf/2502.11089),介绍了一种新的稀疏注意力机制(Natively Sparse Attention,NSA),用于提升长文本训练和推理的效率,并具备硬件对齐和端到端训练的特性。

截至19日下午,这篇推文在X上已经有超过180万观看量。值得一提的是,DeepSeek创始人梁文锋也出现在这篇论文的作者名单中。下面我们就来看一下这篇论文有哪些创新点。

https://user.guancha.cn/main/content?id=1385228
收藏收藏 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|手机版|消息树

GMT-8, 2025-10-15 04:16 , Processed in 0.061622 second(s), 15 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表