eNewsTree.com

 找回密码
 立即注册
查看: 681|回复: 0
打印 上一主题 下一主题

DeepSeek“偷偷”发布新版本,最新测评来了

[复制链接]
跳转到指定楼层
楼主
发表于 2025-3-25 23:51:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
来源:观察者网

昨晚,DeepSeek 以非常低调的方式,带来了最新版本的大模型 V3-0324。

没有官方新闻稿,没有技术报告,甚至在Hugging Face上传的最初文件中,连README文档都是空的,看上去,这只是V3模型的一次版本升级。

不过由于DeepSeek自带的极高话题性,这次版本升级还是引发了大量讨论和测评,并且果然没有令人失望——很多专业人士都指出,V3-0324模型在编程能力上有了显著提升。

在大模型编程能力测试Aider LLM中,V3-0324的多语言基准测试得分为55%,相较于此前版本不到50%的水平有明显进步,并且超越了OpenAI的o3-mini,接近于自家的R1,但仍然稍稍落后于以编程见长的Claude 3.7 sonnet。

考虑到V3-0324并非推理模型,能够在编程能力上接近R1,算得上是自身短板的精准补强。

另一位博主Xeophon自建的测试集上,V3-0324在综合能力上超越了Claude 3.5 sonnet,排在它身前的DeepSeek R1,o3-mini和阿里通义的qwq-32b则都是推理模型。

https://www.guancha.cn/economy/2025_03_25_769699.shtml
收藏收藏 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|手机版|消息树

GMT-8, 2025-10-15 00:36 , Processed in 0.060840 second(s), 15 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表