如何评价 deepseek 上线的 deepseek-V3 模型？

发布时间：

2025-01-03 17:17

阅读量：

我测试大模型的第一题，就是让大模型把詹姆斯代入到孔乙己的酒馆段子改编，同时考验了信息收集，信息理解，信息生成3种能力。

这次的deepseek-V3让我感到非常惊喜，保持了模板结构的完整性，同时对黑料的挖掘和演绎也是十分出色，连很少有人提的发量都黑了一下。短短几百字，把传球，兄弟篮球,goat，决定，not 1，抱团等都串起来了，虽说不及我这种黑子大师，但也超过一般网友水平了。

======================================================================

作为对比，这是豆包，你们口中的“理科不行，文科一流”的豆包，首先模板格式就是乱的，黑料挖掘和理解差劲，从推理过程看就是从搜索引擎抓取了一篇孔乙己的模板文章，然后再抓几个黑料替换进去，黑料数量少，之间也没有联动。嘲讽度和幽默度都是初中生水平。

======================================================================

这是阿里通义的，不知是不是因为道德限制高，发挥中规中矩，从结果可以推出相关信息搜集度不够，理解水平一般，生成水平一般。

==========================================================================

然后因为最近正好油管下视频的插件又又又失效了，所以就自己用开源库写了一个。

首先是deepseek，就两字：好使。从0到功能完整不到一小时搞定，提交的代码可以直接运行，没有恶性BUG和中断，并且能根据输出给出比较精准的修改建议，整个过程我不用看具体代码，只需要根据运行结果给出修改意见。

然后是阿里通义的，界面排版就很随意，很显然deepseek连排版也训练过的，从0到功能完整，耗时2个多小时，无法给出精准修复意见，提交的版本偶尔有中断BUG，过程中碰到3次BUG无法解决，需要人脑查看具体代码分析解决。

最后是豆包的,抱歉没有图片，因为根本没法完成，最令我震惊的的是居然有少一个括号的这种语法错误，每次提交有25%几率出一次语法错误，相当刺激。碰到BUG就只会在2种方法来回改浪费时间，使用1个小时之后放弃。

总结：阿里通义：典型老牌大厂，道德限制高，功能齐全，多模，性能一般但能用。

deepseek V3：大模型届的游科，彻底撕碎大厂们的硬件护城河，Chatgpt 4o的性能，成本却只有几十分之一。比起技术上的突破，开源对那些欧美厂的冲击更巨大，有点类似于国产手机爆发对山寨机和国外高价机的大清洗，未来一年欧美的大量转向慢的AI厂都将被清洗掉，一个月200美元的会员费，拿什么来打？

豆包：营销暴发户钱太多了，砸点钱跟风搞一搞。

上一篇：有哪些适合 2024 年底总结的朋友圈文案？

下一篇：从人物设定的角度来看，初音未来这个形象的成功之处在哪里？

END