2026-04-25 AI 基础设施战争:当算力竞争变成生态争夺,SaaS 公司该怎么办

2026-04-25

过去一周,AI 行业发生的事情表面上看各自独立,但把它们摆在一起看,一条清晰的脉络就浮现出来了。谷歌发布了第八代 TPU,两枚专门面向 agentic AI 时代的新芯片。几乎同时,Bloomberg 报道谷歌计划向 Anthropic 投入最多 400 亿美元。而 OpenAI 也不甘示弱,发布了 GPT-5.5,号称"迄今为止最聪明的模型",主攻编码、研究和数据分析。

这三件事发生在同一天左右的时间窗口里,不是巧合。

AI 基础设施竞争,表面上在比芯片和模型,实际上在争谁来定义下一代 AI 服务的成本结构和生态入口。如果你是做 SaaS 的,尤其是正在把 AI 能力嵌入产品的团队,这场战争迟早会传导到你身上,不是以"哪家模型更好用"的方式,而是以"你的月度 AI 调用成本涨了多少"和"你的模型供应商明天还存不存在"的方式。

两条路线,两种野心

谷歌的第八代 TPU 分为两个型号。一个叫 Trillium 8T,面向训练和大规模推理。另一个叫 8I,专门针对推理场景做了优化。谷歌在官方博客中说,这是"为 agentic 时代设计的专用芯片"。所谓 agentic 时代,指的是 AI 不再只是回答问题的工具,而是能够自主执行多步骤任务、调用外部工具、在复杂工作流中做决策的系统。

这个定位很关键。因为 agentic 工作负载对算力的需求和传统的大模型推理完全不同。传统的"你问我答"式推理,用户发一条消息,模型生成一段回复,结束。但 agent 不同,它可能要在一次用户请求中,拆解成十几个子任务,每个子任务都需要一次或多次模型调用,中间还要检索数据、调用 API、做逻辑判断。这意味着单次用户交互的算力消耗可能比传统模式高出一个数量级。

谷歌选择在这个时间点推出专用 TPU,背后有一个算不过来的账:如果所有 agentic 工作负载都跑在英伟达 GPU 上,那谷歌在 AI 生态中的议价权就很有限。GPU 是英伟达的地盘,定价权、供应节奏、技术路线都由英伟达主导。谷歌要做的是把算力这个底层资源掌握在自己手里,然后用自己的云服务把开发者绑定在谷歌的生态中。

而谷歌向 Anthropic 投资最多 400 亿美元这件事,换一个角度看,其实是同一条路线的延伸。Anthropic 是目前最有力的 OpenAI 替代者之一,它的 Claude 系列模型在长上下文、编码、安全对齐等方面都有独特优势。谷歌投资 Anthropic,不只是在押注一个模型公司,而是在构建一个"不用 OpenAI 也能构建顶级 AI 产品"的生态选项。

如果 Anthropic 选择深度绑定谷歌云和 TPU 来做训练和推理,那开发者选择 Anthropic 的模型,就自然地进入了谷歌的基础设施体系。这是一次"围魏救赵"式的竞争策略:不直接和英伟达拼芯片,而是通过投资和生态绑定,让一部分 AI 开发者自然而然地脱离英伟达的技术栈。

OpenAI 那边,GPT-5.5 的发布是对这条压力的直接回应。OpenAI 目前的训练和推理基础设施高度依赖英伟达 GPU,但它也在通过自有芯片计划和微软的合作关系,试图降低这种依赖。GPT-5.5 主打编码和研究能力,这正好是开发者最关心的两个场景,也是 Anthropic Claude 系列一直表现强劲的领域。这不是产品层面的巧合竞争,而是在争夺"开发者的默认 AI 后端"这个位置。

为什么不只是"谁算力更强"

很多人看 AI 基础设施竞争,习惯用"谁的芯片更快、谁的模型更聪明"来理解。这个视角没有错,但不够。

真正决定这场战争走向的,不是单纯的性能指标,而是三个更底层的东西:成本结构、开发者生态和默认依赖。

先说成本结构。当前大模型推理的成本,大头是算力。而算力的成本又取决于芯片效率、能源价格、数据中心规模和供应链议价能力。谷歌的 TPU 走的是自研路线,芯片、软件栈、数据中心、能源全部自己控制,这意味着谷歌可以在内部优化每一个环节的成本。英伟达 GPU 走的是通用路线,靠的是 CUDA 生态和广泛的硬件兼容性,利润空间更高,但客户对成本的把控能力也更弱。

对于 SaaS 公司来说,这个成本结构的差异最终会体现在 API 调用价格上。你可能不会直接感知到"我是跑在 TPU 上还是 GPU 上",但你一定会感知到"为什么上个月 AI 调用费用突然涨了 30%"。这种涨价背后,往往是算力供应商的定价策略发生了变化,而你的议价能力几乎为零。

再说开发者生态。英伟达的 CUDA 生态经过十几年积累,几乎成了 AI 开发的默认选择。大量的库、框架、教程都是围绕 CUDA 构建的。但谷歌也在通过 JAX 和 Cloud TPU 的整合来建设自己的生态。更重要的是,当 Anthropic 这样的顶级模型厂商选择在谷歌云上部署模型、提供 API 时,开发者使用 Anthropic 的过程就自然地接触到了谷歌的基础设施。生态绑定不是通过强制手段实现的,而是通过"最方便的路径"实现的。

最后说默认依赖。这是最容易被忽视,但最关键的变量。一个开发者在做一个新项目时,选择 AI 后端的第一反应是什么?大多数人会选 OpenAI,因为它是"默认选项"。但如果 Anthropic + 谷歌云的组合在性能、价格、稳定性上都足够好,而且文档友好、迁移成本低,那"默认选项"就可能变成两个。一旦"默认选项"变成两个,英伟达在算力层的垄断地位就被打开了缺口。

这就是为什么我说这场竞争不是在比谁更快,而是在争谁来定义下一代 AI 服务的成本结构和生态入口。

对 SaaS 公司的现实影响

如果你是一个 SaaS 创业者或技术负责人,你可能会觉得这些"基础设施战争"离你很远。但实际上,传导链条比你想象的短。

第一,AI 调用成本的波动会越来越频繁。当谷歌和英伟达在争夺算力市场时,价格战是必然的,但价格战之后往往是整合和涨价。SaaS 公司如果在产品中深度嵌入了 AI 能力,那 AI 调用成本就会成为你的运营成本中增长最快的部分。你需要提前做成本建模,而不是等到账单暴增时才反应。

第二,模型供应商的稳定性不再是可以假设的。过去一年,我们已经看到多次模型 API 的重大变更,包括定价调整、模型退役、功能限制等。当 AI 基础设施格局快速变化时,你依赖的模型供应商可能突然调整策略。比如,如果 Anthropic 深度绑定谷歌云,那它的 API 在非谷歌云环境下的性能和价格可能就不一样了。

第三,技术选型的沉没成本会越来越高。如果你所有的 AI 功能都围绕一个模型厂商的 API 构建,那迁移成本会随着功能复杂度的增加而急剧上升。这不是简单的"换个 API endpoint"的问题,而是涉及 prompt 工程、上下文管理、输出格式适配、错误处理、监控告警等一整套系统的重新适配。

第四,客户对 AI 能力的期望会持续升高。当 GPT-5.5 这样的新模型发布后,用户对"AI 应该能做什么"的基准线就被抬高了。如果你的产品还停留在上一代模型的能力水平上,用户体验的差距会越来越明显。这意味着你需要一个更灵活的模型更新策略,而不是"选一个模型就一直用下去"。

如何避免过早绑定单一阵营

基于上面这些分析,我给 SaaS 团队几个务实的选择建议,不是什么"终极解决方案",而是基于当前格局的务实判断。

第一,保持至少两个模型供应商的并行能力。这不意味着你要同时接入五个模型,而是在架构层面预留多模型切换的能力。最简单的方式是在你的 AI 调用层做一个抽象层,让上层业务逻辑不直接依赖某一个具体的模型 API。这个抽象层的实现成本不高,但给你带来的灵活性是巨大的。

第二,关注成本结构而不是只看性能指标。选择 AI 供应商时,不要只看"哪个模型在 benchmark 上分数更高",而要看"哪个供应商的成本结构更适合你的业务模式"。如果你是做高并发、低延迟的在线服务,那推理专用芯片(比如谷歌的 TPU 8I)可能在性价比上更有优势。如果你是做复杂的多步骤 agent,那模型的长上下文能力和工具调用能力可能更重要。

第三,把 AI 调用成本当作运营成本来管理,而不是当作技术成本来忽略。这意味着你需要做定期的成本审计,监控每个功能的 AI 调用量和成本,建立预警机制。当你知道"每个用户每月的 AI 调用成本是 0.47 美元"时,你才能做出理性的定价和功能决策。

第四,不要在基础设施格局未定时做长期押注。当前的 AI 基础设施竞争还远没有到终局。谷歌的 TPU 路线、英伟达的 GPU 路线、各家自研芯片计划,都还在快速演进中。现在选择"深度绑定"任何一个阵营,都存在风险。更好的做法是保持灵活性,让基础设施的选择跟随业务需求走,而不是反过来。

AI 基础设施战争的最终赢家,可能不是芯片最快的那个,也不是模型最聪明的那个,而是让最多开发者"不知不觉就用上了"的那个。这和当年云计算战争的逻辑是一样的:AWS 不是技术最好的,但它是最先让开发者觉得"用云比用自建服务器更简单"的那个。

对于 SaaS 公司来说,最重要的事情不是预测谁是最终赢家,而是确保自己不会因为选错阵营而成为代价。