Token消耗一年暴增7倍！谷歌步入Agent驱动时代带来什么启示？

2026-05-20 10:04 星期三

科创板日报宋子乔

《科创板日报》5月20日讯（编辑宋子乔）今日凌晨，在一年一度的谷歌I/O开发者大会上，谷歌CEO桑达尔•皮查伊（Sundar Pichai）称，这次谷歌I/O大会的新发布，意味着其已正式迈入Agent（智能体）驱动的Gemini时代。

Agent是本次谷歌开发者大会的重点展示内容。

谷歌的目标是让AI从“应答助手”变成全天候自主干活的智能体，重塑个人与企业的数字工作流。从发布会上看，谷歌正把AI智能体全面嵌入其所有核心入口，包括搜索、浏览器、手机等，渐渐形成“底层模型（3.5Flash）——开发平台（Antigravity）——个人助手（Spark）——场景（搜索/电商/硬件）”的全栈体系。

专为智能体而生的模型主打性价比

在模型底座层面，谷歌推出Gemini 3.5 Flash作为智能体核心引擎，这是其首个为“长周期智能体任务”专门优化的模型，Token输出速度达OpenAI、Anthropic前沿模型的四倍，在Antigravity编程平台中的速度提升至12倍，价格不到同档前沿模型的一半。其API 定价为输入1.5美元/百万Token，输出9美元/百万Token，比3 Flash贵了3倍，但比3.1 Pro便宜40%。

皮查伊在现场算了一笔账，一家头部企业每天处理约1万亿Token，如果其将80%负载从其他前沿模型迁移到3.5 Flash，每年可节省超过10亿美元。

另外，Gemini 3.5 Flash拥有1M超长上下文可支撑复杂长链路任务处理，已成为Gemini App、搜索AI Mode的默认模型，为全场景Agent提供算力支撑。

同时，谷歌发布多模态世界模型Gemini Omni，可实现任意多模态输入到视频、图像、文本的生成输出，为创意、设计类Agent提供生成能力，补齐智能体多模态交互短板。

C端智能体上线设备关机也可运行

Gemini Spark是本次大会最核心的个人智能体产品，这是谷歌首款云端常驻、设备关机仍可运行的个人AI助理，基于Gemini 3.5 Flash与Antigravity调度框架，运行于谷歌云专属虚拟机，深度整合Gmail、Docs、Sheets等谷歌全家桶，可以跨应用自动运行，完成拉取信息、撰写邮件、整理会议纪要等复杂任务，支持语音多指令下发与自定义技能，今夏将接入Chrome浏览器，实现全场景覆盖。

Spark下周将向美国Google AI Ultra订阅用户开放Beta测试。为了降低智能体服务使用门槛，其Ultra高端套餐的订阅价格将从250美元/月降至200美元/月，并新增100美元/月档位。

在Android平台上，谷歌同步推出Android Halo——手机顶部的智能体状态通知层，让用户随时掌握后台智能体的执行进度。

以智能体优先的开发者平台

在开发平台层面，谷歌升级了Antigravity 2.0，将其定位为Agent-first（智能体优先）的全栈开发平台。该平台从IDE升级为独立桌面应用，支持多Agent并行编排、动态子Agent调度、定时任务与后台自动化，提供桌面端、CLI、SDK、托管Agent四大工具套件，可本地部署Agent引擎并深度集成谷歌生态。

谷歌演示了如何使用Antigravity 2.0搭配Gemini 3.5 Flash，让93个智能体协同工作，仅消耗26亿Token、成本不到1000美元，就在12小时内从零搭建了一个可运行的操作系统。从内核到进程和内存管理系统，Antigravity编写了每一行代码。

今年3月，谷歌内部开发相关任务每天处理约5000亿Tokens，之后每隔几周翻倍，目前已经超过每天3万亿Tokens。

此外，谷歌推出Managed Agents API，开发者通过一次API调用即可启动一个托管智能体，获得隔离沙箱环境用于代码执行和工具调用。Agent Studio则为业务团队提供低代码入口，形成覆盖专业开发者与业务人员的四层开发模型。

智能体渗透搜索、电商环节

谷歌搜索一直是该公司的基本盘业务，此次大会上谷歌推出了Search Agents搜索智能体，具备后台持续监控、条件触发主动推送能力，可并行追踪股价、租房、商品库存等信息，可与Gemini Spark协同工作。

其全新AI Mode搜索框支持多模态输入，AI智能体可在后台24/7运行，持续追踪用户关心的信息，并在有更新时主动推送。Universal Cart智能购物车则聚焦电商搜索场景，能跨平台自动比价、下单、售后追踪。

智能体时代 Token消耗将暴增

AI产品的商业化交付始终是谷歌更关心的问题，正如皮查伊所言，“最前沿的智能体可能只触达过世界上0.1%的人。真正的问题，是怎么把这种前沿能力规模化交付给所有人。”

本次I/O2026给出的答案是，谷歌正在用其全栈能力——从TPU硬件、Gemini模型，到Android、Chrome、Search、Gmail，再到Antigravity开发平台，铺成一条从“实验室智能体”到“十亿用户智能体”的闭环通路。

值得注意的是，智能体需反复推理、调用工具、处理长上下文，单次任务Token消耗可达普通对话的数十倍以上。

皮查伊透露，谷歌十年前确立AI-first战略，如今每月跨自家产品处理的Token数量已经达到了夸张的3200万亿，是2025年I/O时480万亿的7倍。目前每月有超过850万开发者利用谷歌的模型开发新应用和新体验，模型API目前每分钟处理大约190亿Token，过去12个月有超过375名谷歌云客户各自处理了超过一万亿Token。

放眼国内，2024年初，中国日均Token调用量仅1000亿，2025年底跃升至100万亿，2026年3月突破140万亿，两年增长超千倍。

当模型厂商从按次收费转向按Tokens计费，AI商业模式开始跑通。

国信证券表示，伴随今年初以来Agent驱动Tokens爆发式增长，大模型厂商商业模式逐步闭环，收入增长远高于训练成本提升，且模型厂商毛利率不断提升。该机构认为当前AI投资叙事已逐步从需求侧转变为供给侧是否能支撑后续订单交付。

中信证券研报称，Token工厂陆续落地，Token服务走向标准化。三大运营商推出Token套餐，标准化Token运营走向千家万户。Token工厂及Token运营商推动产业链价值重估，推动算力租赁从当前以“裸金属”服务器租赁时长为基础的固定月租模式，转向按实际Token用量计费的模式，头部算力租赁厂商卡位优势突出。建议关注Token工厂及算力租赁相关标的。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

专为智能体而生的模型 主打性价比

C端智能体上线 设备关机也可运行

以智能体优先的开发者平台

智能体渗透搜索、电商环节

智能体时代 Token消耗将暴增

专为智能体而生的模型主打性价比

C端智能体上线设备关机也可运行