界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

时隔一周,零一万物再次更新其千亿参数闭源大模型Yi-Large的动态,这次是榜单成绩。

5月21日,零一万物表示,在LMSYS盲测竞技场最新排名中,Yi-Large总榜排名世界模型第7。在总榜上,GPT系列占了前十中的四位,以机构排序,零一万物位于OpenAI,Google和Anthropic之后。

此外,其中文分榜排名与GPT4o并列第一(严格来说分数更低一些),编程能力(Coding)和长提问(Long query)位列第二。

LMSYS Org是一个针对大型语言模型(LLMs)的研究组织,其发布的大语言模型评估排行榜也被称为大模型匿名竞技场。榜单会让大量用户输入问题,并由不同模型生成回答,用户在不知道模型与答案对应关系的情况下根据答案质量进行投票,从而对模型进行评估。

此次刷新的“Chatbot Arena”是LMSYS排行榜的主要基准之一,使用Elo评级方法(一项基于统计学原理的评价体系)进行计算结果,这一场全球用户投票数超过1170万。

这次成绩之所以被零一万物重视,一方面是因为它是国内大模型领域唯一进入前十的公司(智谱GLM4、阿里Qwen Max、Qwen 1.5也参与了这次盲测),但客观来看,它不能完全验证自己是国内第一的说法,因为国内参赛选手仅有三家。

另一方面在于排在Yi-Large前面的大模型都是万亿参数级别,而Yi-Large以千亿参数量级达成了相近的表现。“如果我们有10倍GPU,我们的万亿模型完全可以达到第一名。”零一万物创始人兼CEO李开复表示。

事实上,大模型曾因刷榜乱象广受争议,大量榜单由于题目缺乏动态性、可针对性刷题等问题,已经丧失了一部分公信力。对此,零一万物模型负责人黄文灏表示,团队之所以强调LMSYS的排名价值,是因为看重其题目动态随机、基于用户打分等机制带来的客观性。

而关于用户输出的“prompt”(提示词)在专业水平上是否不如专业评测集,黄文灏的理解是,一方面,盲测竞技场的方式更贴近用户真实使用场景,这是其主要价值所在;另一方面,LMSYS也有“hard prompt”部分,这一板块对于模型智力其实提出了很高挑战。

除去榜单本身传递出来的技术信息,这背后还呈现出中美大模型领域差距等更宏大长远的议题。

李开复表示,团队尊重美国在科技领域的创造性,但后发有后发的优势。“中国人的聪明、勤奋、努力是不容忽视的。”他指出,零一万物用一年时间把过去几年的技术差距缩短到目前的6个月(在榜单上超过了6个月前更新的海外大模型),“6个月的差别我觉得不是很大,这是以一个不可思议的超级速度在追赶。”

在追赶问题上,李开复多次提到了算力局限问题,但算力对模型发展的限制客观存在,当世界第一梯队已经处于领先位置,并且拥有更深厚的资源,国内大模型公司可以采取什么战术?

在李开复看来,这件事本质上可以分为两个方向,一是“把一张GPU挤出更多的价值”(主要指提高MFU,模型FLOPs利用率),二是优化模型表现,这涉及数据配比、如何引入多模态等技术细节,“我觉得我们在这方面是不输于美国。”他说。

对于行业趋势,零一万物绕不开的就是当前已经开展的B端(企业端)服务“价格战”。

此前,李开复明确表示,不应在行业内按照ofo的烧钱打法重蹈覆辙。但接连几日以来,字节跳动旗下豆包大模型宣布降价,其通用模型pro-32k的推理输入价格仅为0.0008元/千Tokens,比行业便宜近一半;随即,阿里云通义千问主力模型Qwen-Long的API输入价格直降97%降至0.0005元/千Tokens;百度文心大模型也宣布两款主力模型ENIRE Speed和ENIRE Lite免费。

李开复表示已经关注到这一现象,但他认为零一万物目前定价合理,且团队也在花很大精力进行降价。“行业每年降低10倍推理成本是可以期待的,而且也应该是必然发生的。”他说。

但他坚持认为价格战是一个“双输”的打法,大模型公司不会这样不理智。当他认定自己的技术值得的时候,就会坚持一个合适的价格,而绝不会靠贴钱、赔钱去做生意。

“如果你再问,以后可能中国就是这么卷,大家宁可赔光通输也不让你赢,那我们就走外国市场。”李开复表示。