阿里AI战局再落一子:顶尖科学家许主洪转岗,执掌多模态交互模型

作者| 小 猫

编辑| 硬 AI

正值全球科技巨头在人工智能领域展开激烈军备竞赛之际,阿里巴巴内部的排兵布阵再次出现关键变动。

华尔街见闻·硬AI获悉,近期备受瞩目的AI顶尖科学家、阿里集团副总裁许主洪(Steven Hoi)已从智能信息事业群首席科学家的职位上,转岗至阿里集团的核心AI研发机构——通义实验室。

%title插图%num

阿里方面向华尔街见闻·硬AI证实了这一消息,并表示许主洪将负责多模态交互模型方向的研究,后续向通义实验室负责人、阿里云CTO周靖人汇报。

这一内部调动释放出重要信号:在吴泳铭“AI驱动”的核心战略下,阿里正进一步将顶尖人才向AI基础模型研发的核心战场集结,而多模态交互则被视为下一阶段AI突破的关键隘口。

对于许主洪而言,这次转岗意味着他将从更贴近C端应用的“前线阵地”转向更为核心和底层的“研发心脏”。

时间拉回至今年2月,这位在学术界和工业界均享有盛誉的AI大牛(IEEE Fellow、斯坦福大学评选的“全球前1%的AI科学家”)正式加盟阿里,在当时引发了业内不小的轰动。他最初的落脚点是智能信息事业群,一个囊括了夸克、UC浏览器、书旗小说等亿级用户产品的业务集群,直接向“85后”总裁吴嘉汇报。

彼时,业界的普遍解读是,阿里意图明显——借助许主洪在多模态基础模型及Agents领域的深厚积累,快速提升C端产品与AI结合的应用能力,打造出能与用户直接对话的“超级应用”。这也符合阿里在AI C端应用上“软硬一体”的生态构想,即整合“通义”APP、夸克、天猫精灵等核心业务,抢占AI应用赛道先机。

然而,仅仅半年多后,许主洪便调离了这个被视为阿里AI应用重要出口的事业群,转而投身于更为基础和前沿的通义实验室。这一变化背后,是阿里对AI战略优先级的再聚焦。

一位接近阿里的人士向华尔街见闻·硬AI分析称:“这可以看作是阿里集中优势兵力,全力攻坚核心基础模型能力的体现。应用创新固然重要,但基础模型的持续领先才是决定未来战局的关键。让最顶尖的科学家回到最核心的研发岗位,是确保技术引擎持续强大的必然选择。”

阿里“亮剑”多模态交互

许主洪的新战场——通义实验室,是阿里“通义”系列大模型的“孵化器”,由阿里云CTO周靖人亲自挂帅。周靖人同样是AI领域的重量级人物,拥有哥伦比亚大学计算机博士学位,曾任微软研发合伙人,是阿里云大数据平台和人工智能研究的灵魂人物。

在周靖人的带领下,通义实验室已经构建了包括语言、视觉、语音等在内的“全尺寸”和“全模态”模型矩阵,其开源模型在全球范围内获得了巨大的影响力。

而许主洪此次负责的“多模态交互模型”,正是当前全球大模型研发的前沿阵地。所谓多模态,即让AI能够像人一样,同时理解和处理文本、图像、音频、视频等多种信息形式,并以更自然、更智能的方式与人类进行交互。这被认为是AI从“能听会说”迈向“能看会想”的关键一步,也是通往通用人工智能(AGI)的必经之路。

无论是谷歌的Gemini、OpenAI的GPT-4o,还是阿里自身发布的Qwen-VL、Qwen-Audio等模型,都已展现出强大的多模态能力。而许主洪在加入阿里之前,其研究便长期聚焦于此,尤其以“多模态预训练”领域的突破性研究闻名。他提出的低成本预训练策略,曾深刻影响全球大模型的研发进程。

此次履新,意味着阿里将整合许主洪在多模态领域的学术远见和工业界经验,与通义实验室现有的工程和研发能力相结合,意图在多模态这一核心赛道上建立起更强的技术壁垒。其未来的研究成果,不仅将为夸克、淘宝等前端应用提供更强大的AI能力支持,更有可能催生出全新的交互范式和产品形态,例如更智能的个人助理、更沉浸的AI硬件等。

“巨头”的逻辑:人才、资源与战略定力

许主洪的转岗,是阿里AI战略在“聚光灯”下的又一次微调,也折射出当前AI巨头竞争的普遍逻辑。

首先,顶尖人才的流向即是战略方向的指针。从吴泳铭亲自兼任阿里云CEO,到此次将许主洪这样的战略级科学家部署到基础模型研发的一线,都显示出阿里最高层对底层技术掌控力的极度重视。

其次,资源正以前所未有的力度向核心模型集中。知情人士透露,此次调整是“正常的集团内部转岗”,其背后逻辑是“集中资源投入基础模型能力建设”。这意味着,相较于在应用层面的多点开花,阿里当前更倾向于将宝贵的研发资源和人才投入到底层模型的“深井”中,以求获得更具颠覆性的技术突破。

%title插图%num

最后,这体现了巨头在喧嚣的AI浪潮中寻求战略定力。AI应用的商业化路径仍在探索之中,但基础模型的代际竞争却已白热化。在这样的背景下,是否选择长期投入、夯实技术根基,考验着每一家公司的战略远见与决心。