千问、灵光、夸克,阿里AI疯狂“补课”

%title插图%num

定焦One(dingjiaoone)原创

作者 | 王璐

编辑 | 魏佳

阿里在C端AI产品上的密集布局,正引发行业新一轮关注。短短半个月里,阿里系连续推出两款重磅产品——阿里集团战略级应用千问APP与蚂蚁集团的全模态通用AI助手灵光APP,阵仗之大,颇为少见。

放眼全球AI To C赛道,市场竞争早已进入白热化:海外市场,ChatGPT牢牢占据用户心智;国内赛场则是硝烟弥漫,豆包已超越DeepSeek跻身月活TOP1,腾讯元宝、Kimi等无论是大厂出品还是创业公司的先发产品,都已积累了一批较为稳定的用户群。阿里此时入局,难免显得姗姗来迟。

但它并非毫无底气,一方面源于技术沉淀,千问并非从零打造,而是由此前的通义APP与夸克AI对话助手升级而来,核心依托阿里通义实验室最强的Qwen3-Max模型;另一方面则来自阿里系生态优势,用户可在千问中直接调用淘宝、闲鱼等多款应用的相关功能。

从目前的反馈来看,用户喜忧参半:支持者称赞千问在推理、编程等复杂场景下的表现亮眼,且生态联动的设想具备独特吸引力;质疑者则认为,千问的综合实力与同类AI助手相比并无突出优势,所谓的“生态联动”仍停留在基础层面,大多需要跳转链接才能完成操作。

而在阿里系内部,“夸克+千问+灵光”的多产品并行,更让从业者抛出了三个核心疑问:千问的真实实力在行业中究竟处于何种水平?在ChatGPT、豆包等玩家早已站稳脚跟的当下,阿里此时入场是否为时已晚?多个C端产品并行的布局策略,是否会导致研发、流量、营销等资源分散,反而难以形成合力?

全能的千问,离ChatGPT还有差距

作为全面对标ChatGPT的产品,千问APP的产品形态和市面上大部分AI助手区别不大,采用对话式交互、布局简洁的设计逻辑,用户点进去能清晰看出各功能分区。

比如用户可在页面顶部切换模型(Qwen3-千问和Qwen3-Max双模型),前者负责回答有关生活中的常见问题,后者主攻推理、代码生成等更为复杂的任务;中部是对话结果展示区,显示聊天回复和生成内容;底部则为功能导航栏和问题输入区,包含、文字、语音、拍照和多功能入口。

%title插图%num

AI应用的核心竞争力来源于底层大模型能力,千问APP依托的是Qwen系列模型,并接入了通义实验室最强大的Qwen3-Max,虽然这一模型尚未开源,但综合官方公布的各项测试结果和从业者的使用体验,大家也能对千问的实力作出基本判断。

一位大模型从业者表示,大模型实力可从语言理解与生成准确性、数学与复杂推理、编程与代码生成、多模态、生态整合五个维度进行评判,我们也围绕上述几大方面对千问进行分析。

语言理解与生成准确性是大模型的基本功,考验其对多语言、方言及歧义句的理解能力,以及按需生成总结、文案、翻译等内容的水平。

相较于ChatGPT,千问的核心优势在于本土训练数据积淀,Qwen3-Max基于36T(tokens)语料训练,覆盖119种语言,在中文语境表现上更胜一筹,能灵活运用成语、方言及网络新梗。

比如面对“这家店的火锅好吃绝绝子,栓Q!”这一流行语,千问和ChatGPT均能解读出“火锅非常好吃,感谢”的核心含义,但千问还能捕捉“栓Q”背后“无语却仍想感谢”的微妙社交潜台词。

不过多位从业者表示,当前各大模型在表层标准任务的语言能力上差距不大,真正的区分更多体现在含推理的复杂场景中,集中在数学与复杂推理和编程与代码生成两方面能力上。

其中,数学与复杂推理能力可以简单理解为,大模型能否解决多步骤数学和复杂推理题。一位从业者表示,千问系列模型已达到开源第一梯队水平,特别是在数学竞赛、金融分析等特定场景中保持领先。

数据显示,Qwen3-max-thinking处在半成品(早期预览版)阶段时,便在AIME 2025和HMMT(哈佛-MIT数学锦标赛)的推理测试中拿到100%准确率的优秀成绩。

而编程与代码生成是目前大模型技术落地最为成熟的领域之一,千问的技术表现符合行业预期。其优势集中在中文编程适配与特定评测指标上,能生成可执行代码、调试错误、优化逻辑,适配不同编程语言和场景。

最后是多模态与生态整合能力,代表着大模型是否可以从“能用”发展到“好用”,也是当前行业竞争的核心战场。其中多模态相当于大模型的“感官”,集中体现在文字、图片、音视频等输入输出形式上,生态整合代表大模型“手脚”,影响的是Agent能力。

千问整合了文档处理、代码开发、文生图、图生视频等多元功能,形成了较为完整的应用生态闭环,满足用户多样化需求,但多位从业者指出,它在Agent能力上还有明显短板。

比如,让千问“规划一次完整出差”时,其无法像ChatGPT那样高效地整合多工具、多步骤信息,生成全面且可执行的规划方案,更多时候需要用户额外提供细节或进行多轮交互来逐步完善计划。

资深从业者赵江杰对「定焦One」表示,这本质是技术架构选择的差异,千问采用的是基于场景适配的专有Agent方案,仅在部分特定场景中专门构建了能完成对应任务的Agent,比如提供DeepResearch和PPT制作服务的Agent;而在没有配备专有Agent的场景下,会直接调用大模型,无法像专有Agent那样通过多步骤规划-执行迭代实现对应的效果。

ChatGPT Agent则不同,它采用的是端到端模型训练的通用Agent技术方案。在Agent模式下,无论输入何种需求,都会统一通过这个通用Agent来处理。不过需要说明的是,ChatGPT Agent在不少任务的执行效果上,比不上专有Agent。

打个比方,千问的专有Agent就像医院里的专科医生,针对特定病症(场景)能给出精准高效的治疗方案;而ChatGPT的通用Agent则像全科医生,能应对各类常见需求,但遇到需要深耕的“专科问题”时,专业性就不如专科医生了。

总体来看,千问的整体表现居开源大模型的顶尖行列,正持续追赶第一梯队顶级闭源模型的能力,但现阶段与ChatGPT相比,仍存在一定差距。

阿里现在做C端入口,不算迟

除了技术实力,阿里在C端赛道的入局时机也是外界关注的焦点。在豆包、DeepSeek、腾讯元宝、Kimi、文小言等竞品早已抢先落地的背景下,千问显得晚来一步。

千问于11月才推出,暂无最新数据,我们可以从更早的公开数据观察其前身的用户基础。QuestMobile数据显示,豆包和DeepSeek的9月月活(MAU)过亿,反观通义(现千问)仅有306万左右。

%title插图%num

起跑线存在差距,但不代表着千问完全没有反超的机会,核心机遇来自两方面。

一方面,目前AI应用的用户忠诚度不高。

最明显的案例是Kimi,它去年靠投流获取了大量用户,但在今年被DeepSeek反超,证明AI产品依然可以凭借技术实力赢得用户。AI产品榜最新的10月榜单也显示,ChatGPT、豆包、夸克等头部AI助手的月活均增长缓慢,DeepSeek甚至还出现了倒退。更有专家公开表示,许多AI应用的首月用户流失率高达80%甚至90%。

这意味着,AI赛道尚未形成固化的用户格局,只要产品足够智能、好用,就有望快速吸引用户迁移。

另一方面,阿里的资金、生态和开源优势,是千问的后盾。

千问依托阿里云,能获得充足的底层算力支持;阿里系内部的淘宝、支付宝、高德等丰富垂类场景,为其带来了独特的数据优势;同时阿里在AI领域的持续人才投入,也让千问的技术研发有了可靠保障。

算力、数据、人才三者的结合,为千问大模型提供了技术基础。而开源策略进一步加速了千问的模型迭代与生态建设。

阿里对Qwen系列采用“核心旗舰模型闭源+轻量版本开源”的组合策略,相比纯闭源模式,这种方式既能让千问团队认知自身模型的优劣,还能吸引全球开发者参与共建生态,帮助千问实现更广泛的场景覆盖。英伟达的CEO黄仁勋在2025GTC大会上就曾提到,Qwen已占据全球开源模型的主要市场份额,且仍在持续扩大。

值得注意的是,阿里系的生态优势目前尚未完全发挥。

理论上,千问可与淘宝、支付宝等实现账号无缝登录与数据打通,借助高德、飞猪、饿了么等内部系统的标准化接口,降低工具调用的协调成本,最终实现从“对话咨询”到“完成支付”的端到端服务闭环。

但目前无论是ChatGPT,还是豆包、元宝、Kimi等国内竞品,都还停留在“导购+跳链”的初级阶段,尚未打通完整的Agent服务链路。赵江杰表示,千问当前也难以实现这一目标。

问题在于行业共性的技术瓶颈,“大模型还不能充分理解复杂场景需求,多App协同的逻辑设计仍不完善,Agent技术的实际落地还处于早期阶段,即便未来技术达到相应水平,淘宝、支付宝、高德等APP的API接口并非为Agent量身打造,也会制约生态联动的效率,”他补充,目前千问的生态联动仅体现在部分基础功能上,比如用户上传一双入门级羽毛球鞋的图片,千问会跳转至淘宝、闲鱼、1688等平台的搜索链接,更深层次的协同尚未实现。

总之,当前AI赛道的用户忠诚度尚未固化,千问依托阿里云Infra(算力)、阿里生态数字资源(数据)及阿里AI研究投入(算法),此刻入局还不算太迟。但若想真正发挥自身独有的生态优势,实现对竞品的反超,关键在于能否突破大模型的核心技术瓶颈,让产品能力再上一个台阶。

迈向超级入口,还有内外挑战

千问的最终目标是成为一个“超级入口”,不管是生活、工作还是学习场景,用户想获取信息、解决问题、完成任务,都能在这里搞定。但这条路并不好走,千问要面对的内外部问题有很多。

首先是内部的“同门竞争”。目前阿里系在C端已经推出了三款AI相关应用:千问、夸克和灵光,它们的功能撞车严重。

这三款里,夸克不是“天生带AI”的产品,它前身是2016年UC浏览器团队推出的夸克浏览器,2023年才升级成“一体化AI助手”,核心用的是阿里自研的千问大模型,到了2025年3月,又升级成“AI超级框”,主打在浏览器里就能做对话问答、总结信息、写内容、拍照搜题。

千问和灵光是基于AI技术打造的“原生应用”,两者的区别在于,千问是阿里直接开发,靠的是Qwen系列大模型,灵光由蚂蚁集团推出,背后是自研的百灵大模型。

阿里也给三者定下了不同方向:千问是“通用智能助手”,夸克聚焦“AI搜索+浏览器”,灵光则是“全模态的生产力工具”。以出游场景为例,可以简单理解为,千问能帮你策划完整出游,包含具体的预算和每天的行程;夸克主要帮你列当地特色景点;灵光会直接生成一个有文字有图片甚至可以互动的旅游小程序。

但实际体验下来,三者的功能重合度远超预期。「定焦One」让它们分别规划“下周末三天两晚的两人亲子三亚游”,要求包含预算、行程、景点和美食,结果三者给出的内容类似,主要区别在于:

千问给出了最详细的行程,以小时为单位。但弄错了时间,把下周六(11月29日)写成了11月30日;

夸克按照上午、下午进行规划,略显粗糙;

灵光在文字规划外还配了大量图片,形式更为丰富。

%title插图%num
从左到右依次为:千问、夸克、灵光

三者给出的预算也接近,千问给出了(2大1小)的总预算为4800-6200元;夸克按单人算,分了经济型、舒适型、品质型三档,最便宜的经济型1500-2000元/人,和千问的总预算折算后差不多;灵光给出的人均预算也在1500-2500元,并在此基础上做了预算对比柱状图。

%title插图%num
灵光的预算柱状图

整体来看,尽管定位各异,但在具体任务上三者的方案高度趋同,差别更多体现在呈现方式。

赵江杰分析,之所以内容重合度较高,特别是夸克和千问的回复,核心原因有两点;一是网上关于三亚旅游的公开资料信息源相对固定,而大模型本质上是对现有信息进行组合加工,因此其处理的上下文也比较类似;二是千问和夸克背后均采用Qwen系列大模型,面对这类特定问题时,二者的思考逻辑相近,输出结果自然也就趋于一致。

不止一位从业者觉得,现在夸克和千问的功能重叠严重,甚至千问已经涵盖了夸克的核心功能。赵江杰也认为,如果夸克不突出自己的浏览器属性,很容易让用户产生用夸克还是千问的认知混淆。

此举也会导致阿里集团的资源(比如流量、研发投入、营销费用)分散投放。而且夸克还在给千问导流,搜索框里专门加了千问按钮,用户只需点击或者滑动,便能直接进入千问界面。

%title插图%num
从夸克首页可进入千问

除了内部竞争,千问还面临一个关键问题:阿里内部各业务线愿意给它开放多少核心数据,直接决定了千问的聪明程度。

比如淘宝是否可以把实时价格波动、真实的用户评论等内部数据开放给千问,如果只给一些浅层的商品信息,千问就无法根据用户的历史消费偏好做精准推荐,自然也就难和其他竞品形成差异化。

但开放核心数据又会带来隐私安全挑战和用户信任度的问题,比如让它推荐一款手机,用户可能会觉得“这是在为淘宝带货”,所以有从业者认为,千问后续可能还需要接入京东、美团这些非阿里系的服务,才能显得更中立可信。

此外,千问面临的外部压力也不小,其他大厂也具备做“AI超级入口”的潜力,比如技术领先的ChatGPT拥有全球范围的知识库,国内的字节豆包、腾讯元宝用户基数较大,模型迭代速度也很快。

可以说,千问是阿里押上自身最强技术、最全生态,在AI的C端战场上最关键的一次出手。但它离真正的“超级入口”,还有很长的路要走,这也是阿里必须补上的关键一课。

*题图来源于pexels。