如何评价 deepseek 上线的 deepseek-V3 模型?

发布时间:
2025-01-03 17:17
阅读量:
4

我测试大模型的第一题,就是让大模型把詹姆斯代入到孔乙己的酒馆段子改编,同时考验了信息收集,信息理解,信息生成3种能力。

这次的deepseek-V3让我感到非常惊喜,保持了模板结构的完整性,同时对黑料的挖掘和演绎也是十分出色,连很少有人提的发量都黑了一下。短短几百字,把传球,兄弟篮球,goat,决定,not 1,抱团等都串起来了,虽说不及我这种黑子大师,但也超过一般网友水平了。

======================================================================

作为对比,这是豆包,你们口中的“理科不行,文科一流”的豆包,首先模板格式就是乱的,黑料挖掘和理解差劲,从推理过程看就是从搜索引擎抓取了一篇孔乙己的模板文章,然后再抓几个黑料替换进去,黑料数量少,之间也没有联动。嘲讽度和幽默度都是初中生水平。

======================================================================

这是阿里通义的,不知是不是因为道德限制高,发挥中规中矩,从结果可以推出相关信息搜集度不够,理解水平一般,生成水平一般。

==========================================================================

然后因为最近正好油管下视频的插件又又又失效了,所以就自己用开源库写了一个。

首先是deepseek,就两字:好使。从0到功能完整不到一小时搞定,提交的代码可以直接运行,没有恶性BUG和中断,并且能根据输出给出比较精准的修改建议,整个过程我不用看具体代码,只需要根据运行结果给出修改意见。

然后是阿里通义的,界面排版就很随意,很显然deepseek连排版也训练过的,从0到功能完整,耗时2个多小时,无法给出精准修复意见,提交的版本偶尔有中断BUG,过程中碰到3次BUG无法解决,需要人脑查看具体代码分析解决。

最后是豆包的,抱歉没有图片,因为根本没法完成,最令我震惊的的是居然有少一个括号的这种语法错误,每次提交有25%几率出一次语法错误,相当刺激。碰到BUG就只会在2种方法来回改浪费时间,使用1个小时之后放弃。


总结:阿里通义:典型老牌大厂,道德限制高,功能齐全,多模,性能一般但能用。

deepseek V3:大模型届的游科,彻底撕碎大厂们的硬件护城河,Chatgpt 4o的性能,成本却只有几十分之一。比起技术上的突破,开源对那些欧美厂的冲击更巨大,有点类似于国产手机爆发对山寨机和国外高价机的大清洗,未来一年欧美的大量转向慢的AI厂都将被清洗掉,一个月200美元的会员费,拿什么来打?

豆包:营销暴发户钱太多了,砸点钱跟风搞一搞。

END