如何看待Huggingface CEO恭喜阿里Qwen2蝉联开源大模型榜首,并称中国处于领导地位?

发布时间:
2024-06-28 13:30
阅读量:
11

开源精神是互联网精神的支柱,GitHub 和 Huggingface两大开源平台则是互联网的启明星。通过开源平台分享自己的见识与成果,公允地面对质疑与挑战,让无论是开源代码还是开源产品触达更多地使用者,让技术的便利传播到更远的受众中,这就是开源的魅力。


在大模型这个高度集成的系统工程中,无数的训练、部署、适配都相互依赖,都需要专业人员去建设,Llama开源了,因此有海量的支持 Llama 框架的插件、服务、专属优化提供,SD 这种也有专门的 UI 去做可视化和界面操作。

同样地,国内大模型中Qwen系列的开源也吸引了一大批开发者共建社区。开源不仅是技术的输出,也同样能够吸收社区的智慧成为迭代的动力。


前几天刚看到在 Yann LeCun 等大牛推出的榜单LiveBench中,Qwen系列拿到开源大模型第一的成绩。

如何看待周鸿祎祝贺阿里通义 Qwen2 登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

今天又关注到Huggingface的榜单OpenLLM Leaderboard 第二版中,Qwen2系列再次拿到开源大模型榜首的消息。这让很多人产生思考,为什么我们需要不断迭代的新benchmark对模型做评估?


Huggingface 给出了一个非常有趣的现象,模型对于这些经典 benchmark 的分数一直在增长,暗示着有些开发者通过泄露测试数据来达到分数提高的效果,而且随着模型能力的不断增长,传统评估的简单数据逐渐无法区分不同模型间的差异性。

此次榜单重点关注 knowledge testing, reasoning on short and long context, complex mathematical abilities, 以及correlated with human preference 等更困难的技术指标,用来测试模型的知识记忆,检索能力,对复杂问题建模的能力,以及理解和听从指令的能力。


之前也提到过:真正的智能不仅在语言本身,更多地蕴含在「数理、逻辑、理解能力」上。因此大家可以发现,新发布的 LLM 更多会聚焦在类似 Coding、Math、Instruction following等,就像 ImageNet 重新为CV领域引入准确衡量模型性能一样,在大模型领域提供一个可全面评测的数据集指标也很重要,大家会亟需一些未泄露的bench来对不同LLM进行评估比。

Huggingface 创建 Open LLM Leaderboard 的 benchmark 正是依赖开源的力量来反馈测试开源的大模型。

可以看到阿里开源的Qwen-2 72B力压其他几家科技、社交巨头,如Meta的Llama-3、法国著名大模型平台Mistralai的Mixtral成为新的大模型开源王者。


在他们的官方测试blog里写到,We’ve been particularly impressed by Qwen2-72B-Instruct, one step above other models, scoring 43.02 on average (notably thanks to its performance in math, long-range reasoning, and knowledge).


开源是对自身产品或者代码的自信,因为它意味着全世界所有人都有机会去审视、使用你的产品,同时也意味着更广泛的受众、更大的可能性。如果你有过多款大模型使用的体验,你就能发现Qwen系列是对国内使用者体验最好的大模型之一,高性能的开源大模型能让你体验到优秀的大模型能力。


正当此时,OpenAI的GPT系列大模型的 API 服务突然暂停对国内提供服务,国产大模型的再次登顶开源榜首一方面能够缓解「技术垄断」的焦虑,另一方面也为国内业务的迁移提供了很好的机会。

相比于去年初 GPT-3.5 刚发布时的绝对领先地位相比,现状来看国内的大模型领域正在奋起直追,良性的竞争会让技术引领者收益,同时能构建更好的技术生态和氛围,我们逐渐从「仰望者」变成「追逐者」再逐渐在某些领域开始引领新的技术前沿。

近期发现在阿里云的百炼平台(bailian.console.aliyun.com)上可以使用这些开源LLM的API进行调用,免费为国内开发者提供 2200 万专属的免费 tokens 额度,还给出了最具性价比的国内大模型计费方式。

阿里云的百炼平台集成众多大模型开源服务,在为开发者提供便利的工具和资源,让我们能够更容易地使用和集成这些开源大模型,激发更多的创新和应用。


开源的力量不仅仅体现在技术的传播和共享上,它还代表着一种创新和协作的精神。阿里的 Qwen 系列的此次登顶,正说明了国内大模型技术力以及开源能力正在逐渐以同行者和引领者的姿态走向舞台中央。

END