豆包“包圆”互联网

%title插图%num

豆包手机才发布半个多月，字节就发布了通用agent模型豆包 1.8。这是一个能在真实世界中“做事”的多模态大模型。

豆包 1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面，然后像人一样点击、滑动，帮你完成各种任务。

这是字节一次非常大胆的尝试。要知道，在12月1号的时候，字节才发布了豆包手机。通用agent大模型的推出，让豆包的领地从手机一下就扩张到了PC端，再加上智能硬件以及未来可以预期的智能座舱，豆包算是把互联网从入口层面“一网打尽”了。

此前，曾因为豆包手机，字节已然成为了移动互联网的敌人，微信、淘宝等超级流量APP明确表示拒绝豆包调用。

而现在，随着豆包 1.8的发布，字节的敌人只增不减。

先来说说豆包 1.8的评分，更直观的感受它作为agent是否合格。

%title插图%num

在多模态理解方面，豆包 1.8的表现具有竞争力。模型能够处理图像和视频内容，单次视频理解的帧数从前代的640帧提升至1280帧。该项提升并非仅体现在数值层面，在实际应用场景中，模型能够以低帧率理解长视频的整体内容，在遇到关键片段时调用工具进行高帧率分析。

比如官方演示中，豆包 1.8就对篮球视频进行分析，最终浓缩出正常比赛的内容。

%title插图%num

在公开评测中，豆包 1.8在ZeroBench主集上获得了11.0分，超越Gemini-3-Pro的10.0分，位居业界首位。ZeroBench是极限视觉推理基准测试中的核心部分，评分越高，代表模型越能理解复杂的视频。

在视觉推理任务上，模型在MathVista得分87.7，MathVision得分81.3，LogicVista得分78.3，虽然整体略逊于Gemini-3-Pro，但是仍处于第一梯队。

视频理解方面，模型在VideoHolmes测试中得分65.5，EgoTempo得分67.0，MotionBench得分70.6，在长视频和流式视频处理上同样保持了竞争力。

%title插图%num

更为关键的是模型的agent能力。

豆包 1.8能够执行代码、操作图形界面、使用各类工具，这些能力使其能够完成多步骤的复杂任务。在BrowserComp-en搜索任务基准测试中，模型得分为67.6，在智能编程和经济价值领域的相关测试中也表现稳定。

字节在技术报告中提及，模型支持search、code execution、GUI interaction三种核心交互方式，这些能力通过统一的agentic接口实现。

在基础能力方面，豆包 1.8在数学推理、代码能力、复杂指令遵循、知识覆盖等维度均保持了主流水平。在AIME-25测试中得分94.3，BeyondAIME得分77.0，AMO-Bench得分60.0，LiveCodeBench得分79.5。

这些数据表明豆包 1.8的底层能力扎实，字节并未因agent能力而忽视基础建设。

%title插图%num

字节专门构建了一些内部评测基准，覆盖教育、客服问答、复杂工作流等高价值场景。

在教育场景的测试中，豆包 1.8得分60.8，在客服问答中得分69.0，均为参与测试模型中的最高分。该结果验证了模型在实际业务场景中的表现。

豆包 1.8提供了四种thinking模式:no_think、think-low、think-medium、think-high。

该设计旨在平衡延迟、计算成本和解决方案质量之间的关系。用户可根据任务的复杂程度选择不同的模式，在需要快速响应的场景使用低算力模式，处理复杂任务时切换至高算力模式。

而且豆包 1.8在视觉编码上进行了优化，减少了图像和视频输入的token消耗。在长上下文处理方面，模型支持256K的上下文长度，并提供了原生API级别的上下文管理。

直白来说，字节已经提前规划好了豆包 1.8有哪些实际用途，以及部署上该如何优化。

有意思的是，豆包 1.8的能力范围不限于手机助手，浏览器以及PC端都可以使用。也就是说，字节正在用AI包圆整个互联网。

其实这两年浏览器市场的变化是非常显著的。传统浏览器，比如谷歌的Chrome和微软的Edge，都在加入AI能力。也诞生了许多基于大模型的AI浏览器。

Atlas是OpenAI在2025年10月推出的产品，本质上是Chrome与ChatGPT的结合，将对话助手嵌入传统浏览器。Disco是Google Labs的实验项目，拥有名为GenTabs的机制，能够将用户浏览的标签页直接生成可交互的Web应用。

AI浏览器是一个非常大的市场。Market.us数据显示，2024年全球AI浏览器市场规模约45亿美元，预计2034年将达到768亿美元，年复合增长率达32.8%。

%title插图%num

然而豆包 1.8其实可以让设备拥有更神奇的玩法。

该模型的云端架构使其能够实现跨设备协同，也就是说，理论上用户可在手机上向豆包 1.8下达命令，由电脑上的浏览器执行。

比如在手机上浏览抖音时发现感兴趣的内容，想要切换至大屏观看。那么就可以向豆包 1.8发出“在网页上打开该页面”的指令，电脑浏览器便能打开手机上的视频。

这种跨平台能力是传统浏览器AI化难以实现的，也是Atlas、Disco等独立浏览器产品目前尚未拥有类似的能力。

实际上，字节也在效仿微软。微软曾在Ignite 2025大会上宣布Windows正在成为“AI agent操作系统”。

然而字节的想法和微软是不相同的。

微软需要从底层改造Windows系统架构，将agent能力深度集成到内核和API层面。而豆包 1.8的做法更轻量，它是一个系统外部的代行者，就像是外骨骼一样简化用户的操作。

为了实现这个目标，首先就是要理解文字和图表。豆包1.8在这个领域有专门优化。

它不仅能阅读文字，还能理解复杂的学术图表、数据可视化、技术文档中的示意图。在处理包含大量公式、图表和专业符号的学术论文时，模型能够提取关键信息、理解图表含义、建立文字与图示之间的对应关系。

而且PC端的任务往往比移动端要复杂。于是豆包1.8在复杂推理任务中，加入了并行思考机制。通过分配额外的计算资源，它可以同时探索多个解决方案路径，评估不同方案的可行性，最终选择最优解。

实际应用测试显示，豆包能够处理综合性的规划任务。在旅行规划场景中，它可以同时处理多模态信息，从地图、图片、文字描述中收集信息，综合考虑预算、时间、偏好等约束条件，生成详细可行的行程安排。

字节想要把AI的蛋糕做大，但是豆包手机已然让字节成为众矢之的，继续升级agent，只会为自己引来更多的敌人。

互联网行业当前的商业逻辑是，用户在应用中停留的时间越长，观看的广告越多，平台获得的收益越高。应用开发商投入大量精力优化界面、设计转化路径、增加用户黏性，目的是让用户尽可能多地接触商业化内容。在该逻辑下，应用是流量的关口，掌握应用即掌握用户。

agent模型的出现，对该逻辑形成了颠覆。在字节的演示中，豆包 1.8能够调用十余个工具完成电商平台的全网比价和下单。

用户无需打开淘宝、京东、拼多多，无需在各应用之间切换，只需告诉大模型“购买性价比最高的某产品”，agent便会自动搜索、比价、筛选、下单。在整个过程中，用户完全不接触应用界面，自然也无法看到任何广告。

%title插图%num

实测显示，豆包 1.8可通过playwright MCP工具，按指令在淘宝筛选500-1000元区间销量第一的半入耳式蓝牙耳机，再到唯品会、京东比价并完成加购。

该能力对用户而言是效率的提升，但对应用开发商而言则构成威胁。

广告展示失去了核心场景，原有的流量价值被大幅压缩。更为关键的是，用户对应用的认知可能发生改变。

过去用户的认知是“购物使用淘宝，打车使用滴滴”，现在转变为“向agent说明需求，由其决定使用何种服务”。应用从流量的关口转变为agent可选的工具，互联网的统治权从应用层转向模型层。

豆包手机遭遇的封禁和限制，本质上是应用开发商的防御反应。但该防御能够持续的时间，取决于用户的选择。

但是，规矩是人定的。如果足够多的用户认为agent的使用体验明显优于传统的应用操作，APP开发商将不得不调整策略。

开发商可能开放API接口使agent更好地调用，也可能在agent调用时保留部分广告展示，或者改变商业模式，从流量变现转向服务收费。

况且，AI agent的玩家越来越多。

12月9日，智谱就宣布开源其核心AI agent模型AutoGLM。与豆包手机助手的能力相似，AutoGLM能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程，并且已支持微信、淘宝、抖音、美团等超过50个高频中文应用。

质谱开源的AutoGLM-Phone-9B总共只需要36GB的空间，就可以完全在手机本地运行。且开源采用MIT和Apache-2.0双许可证，意味着任何人都可以免费下载并用于商业用途。

在移动互联网时代，谷歌凭借开源的Android系统建立了庞大的生态，智谱显然想要在AI操作系统时代复制这一路径。

而且从豆包和智谱的技术实现来看，这个领域的核心壁垒和大模型是完全相同的，腾讯、阿里等等互联网大厂，手里都握着门票。

不过从行业竞争的角度观察，谁能让agent与现有APP生态共存的一方，谁才能占据优势。

字节既拥有模型能力，也拥有应用生态。抖音、今日头条等产品本身即为流量大户，字节能够先在自身应用中测试agent能力，积累经验后再向外扩展。

且字节的云端架构使其能够快速迭代，豆包手机上线半月即推出多次更新，该迭代速度是传统硬件厂商难以达成的。

不可否认的是，豆包1.8是字节的探索性尝试。

它们展示了一种可能性，但距离成熟的产品形态仍有距离。至于最终能够走多远，取决于字节在技术、生态、商业模式上能够实现多少突破。

豆包“包圆”互联网

近期文章

标签

书签