

如何评价谷歌最新发布的Gemini 2.5 pro模型?
似乎没人说啥呀,那就只能一个评价了:差强人意,勉勉强强吧。不是它不行,是市场已经麻木了,实现不了对前三的超越,就只能是这个情况。 GPQA(Graduate-Level Google-Proof Q&A Benchmark)是一个用于评估高级问答系统的基准数据集。该项目旨在提供一个具有挑战性的问答数据集,以测试和提升AI模型的问答能力。GPQA数据集包含复杂的问题和答案,适合研究生级别的学术研究和工业应用。不过也有对它表扬的,它确实做智力测验比较…

谷歌发布 Gemini 2.5 Pro 模型,称其是一个「思考」模型专为复杂任务打造,它有多强大?
Gemini 2.5 Pro Experimental 03-25一句话总结: Google也要给OpenAI上强度了24号DeepSeekV3教育OpenAI什么是好用又便宜的基础模型,25号Google也来给OpenAI上强度,什么是免费又好用的推理模型。 2.5Pro作为一个推理模型,速度还是挺快,测试的平均耗时控制在50秒。这速度虽然比不上自家flash thinking,但在一众推理模型里算快的。 在这个速度上,2.5Pro的成绩达到了85分的极限分,并且其稳定性相当好,中位分仅低1分(2%)。绝…

如何评价 deepseek 上线的 deepseek-V3 模型?
我测试大模型的第一题,就是让大模型把詹姆斯代入到孔乙己的酒馆段子改编,同时考验了信息收集,信息理解,信息生成3种能力。 这次的deepseek-V3让我感到非常惊喜,保持了模板结构的完整性,同时对黑料的挖掘和演绎也是十分出色,连很少有人提的发量都黑了一下。短短几百字,把传球,兄弟篮球,goat,决定,not 1,抱团等都串起来了,虽说不及我这种黑子大师,但也超过一般网友水平了。 ========================================…

OpenAI 下一代大模型 Orion 被曝性能提升有限,这背后都有哪些原因?
梦晨 发自 凹非寺 量子位 | 公众号 QbitAIOpenAI下一代旗舰模型被曝提升不如预期。 消息来自The Information,具体指代号 “猎户座”(Orion)的模型相对GPT-4的提升幅度,小于GPT-4相对GPT-3,已进入收益递减阶段。或许这也是奥特曼曾说,可能不会把新模型命名为GPT-5的原因之一。 消息一出,著名悲观派学者Gary Marcus直接半场开香槟,宣布自己胜利。 在更详细的一篇文章中,他认为 整个AI行业公司的高估值建立在模型能力不断…

为什么现在的ai大模型好像只有中美在做,世界上其他国家都好像完全消失了?
很多人提到了法国的Mistral AI,它前两天发了一条twitter介绍自己的两个新产品,迄今而为才有466K的浏览量。 如果你知道立)党这个人的话,他随便一条黄推都能到1M,马斯克的一条更别说了。 连OpenAI非CEO的推特关注量也可能比这个大。 说白了现在只有中美两个大国能搞这样的重投资,未来我觉得印度也有这个能力,他们本身人口就多,人均的收入少,但是架不住高种姓的钱多,并且印度的精英们还挺喜欢回印度投资的,不过时间可能…

为什么会有那么多大模型答错「9.9 和 9.11 哪个大」?
省流:不是tokenizer的问题,也不是注意力错误,也不是语义建模错误。我不知道为什么,这简直是这几天最令我困惑的事情了。 最简单的回答是归咎于tokenizer,但这很可能是过度简化了问题。 对于其他答主提及的gpt4o等模型,其tokenizer可以从openai的网站或tiktoken获得,其将 11 分词为一个token并不能证明是直接导致该现象的原因。 我们可以很简单地找到反例。如llama系列,从第一代开始其tokenizer就将单个数字作为分词。baic…
《黑神话悟空》最新的宣传片里,猴哥的模型很奇怪为什么没有人提出来?
笑死,作为一个3D模型设计师可以负责任的告诉你,你随便去找市面上能找得到的游戏原模型下载下来,丢到blender 3Dmax还是什么其他哪个软件里去看都可以,会很惊讶的发现,99%以上的模型不光看上去左右对称,实际上真的是左右对称,连脸上的网格点坐标都能精确到小数点后3位来镜像重叠。
阅兵时的各种导弹是真的吗,还是模型?
16年还在文 工团时,下部 队听过一个趣事。大家都知道部 队士 官四期转五期特别难,一个 旅甚至一个军都没一个!14年某导东风快递车队驾驶员四期到了转不了5期只好退 役。 这些驾驶员可都是部 队里的宝贝,曾驾驶快递车参加过多次演习和阅 兵,再破的路也能开的非常平稳,每当有重大活动都是他们开车。当他们旅街接到通知,快递车要经过天安 门时,部 队领导和新驾驶员都麻爪了,战 士心里没底不敢开,领导也觉得不保险不敢让他…

如何看待Huggingface CEO恭喜阿里Qwen2蝉联开源大模型榜首,并称中国处于领导地位?
开源精神是互联网精神的支柱,GitHub 和 Huggingface两大开源平台则是互联网的启明星。通过开源平台分享自己的见识与成果,公允地面对质疑与挑战,让无论是开源代码还是开源产品触达更多地使用者,让技术的便利传播到更远的受众中,这就是开源的魅力。 在大模型这个高度集成的系统工程中,无数的训练、部署、适配都相互依赖,都需要专业人员去建设,Llama开源了,因此有海量的支持 Llama 框架的插件、服务、专属优化提供,SD 这…