豆包“包圆”互联网

%title插图%num

豆包手机才发布半个多月,字节就发布了通用agent模型豆包 1.8。这是一个能在真实世界中“做事”的多模态大模型。

豆包 1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面,然后像人一样点击、滑动,帮你完成各种任务。

这是字节一次非常大胆的尝试。要知道,在12月1号的时候,字节才发布了豆包手机。通用agent大模型的推出,让豆包的领地从手机一下就扩张到了PC端,再加上智能硬件以及未来可以预期的智能座舱,豆包算是把互联网从入口层面“一网打尽”了。

此前,曾因为豆包手机,字节已然成为了移动互联网的敌人,微信、淘宝等超级流量APP明确表示拒绝豆包调用

而现在,随着豆包 1.8的发布,字节的敌人只增不减。

A

先来说说豆包 1.8的评分,更直观的感受它作为agent是否合格。

%title插图%num

在多模态理解方面,豆包 1.8的表现具有竞争力。模型能够处理图像和视频内容,单次视频理解的帧数从前代的640帧提升至1280帧。该项提升并非仅体现在数值层面,在实际应用场景中,模型能够以低帧率理解长视频的整体内容,在遇到关键片段时调用工具进行高帧率分析。

比如官方演示中,豆包 1.8就对篮球视频进行分析,最终浓缩出正常比赛的内容。

%title插图%num

在公开评测中,豆包 1.8在ZeroBench主集上获得了11.0分,超越Gemini-3-Pro的10.0分,位居业界首位。ZeroBench是极限视觉推理基准测试中的核心部分,评分越高,代表模型越能理解复杂的视频。

在视觉推理任务上,模型在MathVista得分87.7,MathVision得分81.3,LogicVista得分78.3,虽然整体略逊于Gemini-3-Pro,但是仍处于第一梯队。

视频理解方面,模型在VideoHolmes测试中得分65.5,EgoTempo得分67.0,MotionBench得分70.6,在长视频和流式视频处理上同样保持了竞争力。

%title插图%num

更为关键的是模型的agent能力。

豆包 1.8能够执行代码、操作图形界面、使用各类工具,这些能力使其能够完成多步骤的复杂任务。在BrowserComp-en搜索任务基准测试中,模型得分为67.6,在智能编程和经济价值领域的相关测试中也表现稳定。

字节在技术报告中提及,模型支持search、code execution、GUI interaction三种核心交互方式,这些能力通过统一的agentic接口实现。

在基础能力方面,豆包 1.8在数学推理、代码能力、复杂指令遵循、知识覆盖等维度均保持了主流水平。在AIME-25测试中得分94.3,BeyondAIME得分77.0,AMO-Bench得分60.0,LiveCodeBench得分79.5。

这些数据表明豆包 1.8的底层能力扎实,字节并未因agent能力而忽视基础建设。

%title插图%num

字节专门构建了一些内部评测基准,覆盖教育、客服问答、复杂工作流等高价值场景。

在教育场景的测试中,豆包 1.8得分60.8,在客服问答中得分69.0,均为参与测试模型中的最高分。该结果验证了模型在实际业务场景中的表现。

豆包 1.8提供了四种thinking模式:no_think、think-low、think-medium、think-high。

该设计旨在平衡延迟、计算成本和解决方案质量之间的关系。用户可根据任务的复杂程度选择不同的模式,在需要快速响应的场景使用低算力模式,处理复杂任务时切换至高算力模式。

而且豆包 1.8在视觉编码上进行了优化,减少了图像和视频输入的token消耗。在长上下文处理方面,模型支持256K的上下文长度,并提供了原生API级别的上下文管理。

直白来说,字节已经提前规划好了豆包 1.8有哪些实际用途,以及部署上该如何优化。

B

有意思的是,豆包 1.8的能力范围不限于手机助手,浏览器以及PC端都可以使用。也就是说,字节正在用AI包圆整个互联网。

其实这两年浏览器市场的变化是非常显著的。传统浏览器,比如谷歌的Chrome和微软的Edge,都在加入AI能力。也诞生了许多基于大模型的AI浏览器。

Atlas是OpenAI在2025年10月推出的产品,本质上是Chrome与ChatGPT的结合,将对话助手嵌入传统浏览器。Disco是Google Labs的实验项目,拥有名为GenTabs的机制,能够将用户浏览的标签页直接生成可交互的Web应用。

AI浏览器是一个非常大的市场。Market.us数据显示,2024年全球AI浏览器市场规模约45亿美元,预计2034年将达到768亿美元,年复合增长率达32.8%。

%title插图%num

然而豆包 1.8其实可以让设备拥有更神奇的玩法。

该模型的云端架构使其能够实现跨设备协同,也就是说,理论上用户可在手机上向豆包 1.8下达命令,由电脑上的浏览器执行。

比如在手机上浏览抖音时发现感兴趣的内容,想要切换至大屏观看。那么就可以向豆包 1.8发出“在网页上打开该页面”的指令,电脑浏览器便能打开手机上的视频。

这种跨平台能力是传统浏览器AI化难以实现的,也是Atlas、Disco等独立浏览器产品目前尚未拥有类似的能力。

实际上,字节也在效仿微软。微软曾在Ignite 2025大会上宣布Windows正在成为“AI agent操作系统”。

然而字节的想法和微软是不相同的。

微软需要从底层改造Windows系统架构,将agent能力深度集成到内核和API层面。而豆包 1.8的做法更轻量,它是一个系统外部的代行者,就像是外骨骼一样简化用户的操作。

为了实现这个目标,首先就是要理解文字和图表。豆包1.8在这个领域有专门优化。

它不仅能阅读文字,还能理解复杂的学术图表、数据可视化、技术文档中的示意图。在处理包含大量公式、图表和专业符号的学术论文时,模型能够提取关键信息、理解图表含义、建立文字与图示之间的对应关系。

而且PC端的任务往往比移动端要复杂。于是豆包1.8在复杂推理任务中,加入了并行思考机制。通过分配额外的计算资源,它可以同时探索多个解决方案路径,评估不同方案的可行性,最终选择最优解。

实际应用测试显示,豆包能够处理综合性的规划任务。在旅行规划场景中,它可以同时处理多模态信息,从地图、图片、文字描述中收集信息,综合考虑预算、时间、偏好等约束条件,生成详细可行的行程安排。

C

字节想要把AI的蛋糕做大,但是豆包手机已然让字节成为众矢之的,继续升级agent,只会为自己引来更多的敌人。

互联网行业当前的商业逻辑是,用户在应用中停留的时间越长,观看的广告越多,平台获得的收益越高。应用开发商投入大量精力优化界面、设计转化路径、增加用户黏性,目的是让用户尽可能多地接触商业化内容。在该逻辑下,应用是流量的关口,掌握应用即掌握用户。

agent模型的出现,对该逻辑形成了颠覆。在字节的演示中,豆包 1.8能够调用十余个工具完成电商平台的全网比价和下单。

用户无需打开淘宝、京东、拼多多,无需在各应用之间切换,只需告诉大模型“购买性价比最高的某产品”,agent便会自动搜索、比价、筛选、下单。在整个过程中,用户完全不接触应用界面,自然也无法看到任何广告。

%title插图%num

实测显示,豆包 1.8可通过playwright MCP工具,按指令在淘宝筛选500-1000元区间销量第一的半入耳式蓝牙耳机,再到唯品会、京东比价并完成加购。

该能力对用户而言是效率的提升,但对应用开发商而言则构成威胁。

广告展示失去了核心场景,原有的流量价值被大幅压缩。更为关键的是,用户对应用的认知可能发生改变。

过去用户的认知是“购物使用淘宝,打车使用滴滴”,现在转变为“向agent说明需求,由其决定使用何种服务”。应用从流量的关口转变为agent可选的工具,互联网的统治权从应用层转向模型层。

豆包手机遭遇的封禁和限制,本质上是应用开发商的防御反应。但该防御能够持续的时间,取决于用户的选择。

但是,规矩是人定的。如果足够多的用户认为agent的使用体验明显优于传统的应用操作,APP开发商将不得不调整策略。

开发商可能开放API接口使agent更好地调用,也可能在agent调用时保留部分广告展示,或者改变商业模式,从流量变现转向服务收费。

况且,AI agent的玩家越来越多。

12月9日,智谱就宣布开源其核心AI agent模型AutoGLM。与豆包手机助手的能力相似,AutoGLM能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程,并且已支持微信、淘宝、抖音、美团等超过50个高频中文应用。

质谱开源的AutoGLM-Phone-9B总共只需要36GB的空间,就可以完全在手机本地运行。且开源采用MIT和Apache-2.0双许可证,意味着任何人都可以免费下载并用于商业用途。

在移动互联网时代,谷歌凭借开源的Android系统建立了庞大的生态,智谱显然想要在AI操作系统时代复制这一路径。

而且从豆包和智谱的技术实现来看,这个领域的核心壁垒和大模型是完全相同的,腾讯、阿里等等互联网大厂,手里都握着门票。

不过从行业竞争的角度观察,谁能让agent与现有APP生态共存的一方,谁才能占据优势。

字节既拥有模型能力,也拥有应用生态。抖音、今日头条等产品本身即为流量大户,字节能够先在自身应用中测试agent能力,积累经验后再向外扩展。

且字节的云端架构使其能够快速迭代,豆包手机上线半月即推出多次更新,该迭代速度是传统硬件厂商难以达成的。

不可否认的是,豆包1.8是字节的探索性尝试。

它们展示了一种可能性,但距离成熟的产品形态仍有距离。至于最终能够走多远,取决于字节在技术、生态、商业模式上能够实现多少突破。