微软和Google都找到了自己的AI重心

文 | 窄播,作者 | 李威

这是《窄播 Weekly》的第 55 期。本周我们关注的商业动态是:微软和 Google 都在开发者大会上进行了一次 AI 战略聚焦。

微软的 Build 2025 大会和 Google 的 I/O 开发者大会都选择了在本周举办,并且两场活动谈论的核心都是 AI。

不同的是,微软的重心是向行业展示如何更好搭建 Agent。微软在 Build 2025 大会上向用户呈现了一套更加成熟的 Agent 基础设施,想要吸引更多开发者加入到构建开放 Agent 网络(Open Agentic Web)的进程中——这是一个 AI 智能体能够在个人、组织、团队乃至整个端到端业务流程中协同运作的体系。

Google 则致力于展示一个围绕 Gemini 搭建的 AI 操作系统雏形。谷歌首席执行官 Sundar Pichai 在演讲中使用了「Gemini 时代(Gemini Era)」来描述未来。一方面,Google 展示了更强的模型研发能力;另一方面,Google 在将 Gemini 的能力融入到各个 C 端产品中。

微软和 Google 虽然重心不同,但其面向 AI 的战略规划都具备了一定的整体性,不再是进行散点的尝试,而是开始找到一条线,将散落的点串联起来,成为一个体系。这个体系的使命就如 Pichai 所言——让研究成果真正发挥作用,将其尽快转化为现实应用。

这是目前我们在国内大厂中尚未观察到的一种变化。我们能够观察到阿里、腾讯、字节都在模型基础层、业务 AI 化和产品创新方面进行着积极布局,但很难像总结本次微软和 Google 一样,为国内厂商提炼出一面指引整个企业向前推进的旗帜。苹果也是如此。

这可能是由于谨慎,也可能是还未下定决心。但无论出于何种考量,旗帜的出现都将是企业的 AI 战略推进到下一个阶段的标志之一。

微软:一切为了开放代理网络

一个展现出神奇效果,但还不够成熟的起步阶段——这是微软在 Build 2025 大会上对当下 AI 技术发展阶段的判断。微软 CEO Satya Nadella 选择用 1991 年的 Win32、1996 年的 Web 栈以及 2008 年的智能手机来类比当下 AI 所处的发展阶段。

以上这些节点,并不是一个 C 端用户大爆发的节点,而是 B 端用户面向未来布局的开始。

因此,微软将重心放在吸引更偏向 B 端的企业和开发者,并为其准备了一个拥有丰富工具和设备的操作间。

我们可以将各种让人眼花撩乱的工具和能力划分为以下几类:

第一类,提供开发环境的基础能力,包括 Windows AI Foundry 和 Azure AI Foundry 等。前者是微软为本地 AI 开发提供的开发环境,通过 Foundry Local 简化了在设备上直接运行 AI 模型、工具和智能体的过程。后者则是微软提供的云端开发平台,这次的一大更新是引进了 xAI 的 Grok 3 与 Grok 3 mini。

同时,微软通过推出 Azure AI Foundry Agent Service,让专业开发者能够编排多个专用 Agent 来处理复杂任务。微软 AI Agent 副总裁 Ray Smith 认为,试图将一个复杂的、要求高可靠性的流程完全整合到单一 Agent 中,往往会面临诸多挑战,将任务系统性地分解给多个 Agent,则能显著增强可靠性。

第二类,提升 Agent 的开发效率。在微软的介绍中,已经有 1500 万开发者在使用 GitHub Copilot 功能,提升代码开发效率,这个规模已经占到 GitHub 总用户数的十分之一。在最新的更新中,GitHub Copilot 将能够支持完成用户分配的 BUG 修复、代码维护等任务,并能在 VS Code 中使用。

微软还推出了 Microsoft 365 Copilot Tuning,支持开发者使用针对公司数据、工作流程和风格微调的模型来构建更专属的 Agent。开发者可以通过低代码的形式进行模型的微调,这个工作之前往往需要一整个数据科学团队耗费数周时间才能完成。

第三类,提供 Agent 的载体。微软在面向 C 端的 Agent 载体上并没有着墨太多,反而是重点介绍了对协作产品 Teams 的升级。Nadella 认为,新的 Teams 真正将聊天、搜索、笔记、生成和 Agent 整合到一个直观的框架中。这也是一个完整的 AI 的用户界面,支持多人协作,并承载了 Agent 的流通。

第四类,提供网络连接能力。一方面微软开始全面支持 MCP(Model Context Protocol)协议,这让它想建立的 Agent 网络具备了开放属性和复杂的任务执行能力。在现场演示中,应用开发者使用 VS Code 中的 GitHub Copilot 功能和 Windows 的 MCP 协议,依靠 3 句话就实现了特定风格网页的开发。

第一句话的指令下,GitHub Copilot 连接 WSL  (Windows Subsystem for Linux)的 MCP 服务器,完成了最新版本的 Fedora 安装;第二句指令下,GitHub Copilot 创建了一个网站项目;第三句指令下,GitHub Copilot 利用 MCP 协议,从用户的 Figma 客户端中提取了相应的设计细节,并据此对网页进行了调整。

在 MCP 协议基础上,微软这次还提出了 NLWeb 概念。微软 CTO Kevin Scott 认为,MCP 协议是 AI 时代的 HTTP,而 NLWeb 则是 AI 时代的 html,能够让任何拥有网站或 API 的人轻松地将其变成一个 Agent。「每个 NLWeb 端点默认都是一个 MCP 服务器,这意味着那些人们通过 NLWeb 提供的东西将可以被任何支持 MCP 的 Agent 访问。」

微软已经围绕开放代理网络完成了对自身业务的基础梳理。在这次梳理之后,微软的产品体系将服务于 AI 时代的 HTTP 与 html,借此来延续互联网时代的荣光。

Google:用 Gemini 改造和连接一切

不同于微软在 Build 2025 大会上呈现的服务企业和开发者的 AI 产品,Google 在 I/O 大会上展示了让更多 C 端用户眼前一亮的创新。大模型能力的升级、搜索的 AI 化尝试、Android XR 的实用化展示,都加深了 Google 想要让 C 端用户更有效使用 AI 的判断。

在模型层面,Google 的模型能力进展快速,且具备了更丰富的能力。首先,Gemini 2.5 Pro 的推出,扭转了市场对 Google 大模型业务的看法,使其成为大模型王冠的有力竞争者。其次,本次发布的视频模型 Veo 3 和生图模型 Imagen 4,在展示效果上都获得了比较正面的评价。

模型基础上,Google 发展出了不同的基础 Agent 能力。其中,Project Astra 主打低延迟的多模态能力,可以通过摄像头和麦克风观察、理解周围的环境,且具备长期记忆能力。Project Mariner 则强调多任务处理能力,一次能处理 12 项任务,能够代理用户浏览和使用网站,完成购买动作。

在 I/O 大会的现场演示中,这些基础 Agent 能力已经被应用在了 AI 搜索、Chrome 浏览器、Gemini App、智能眼镜等 C 端产品的 AI 化改造中。

核心的搜索业务上,Google 终于开始用 AI 加码。5 月 20 日开始,Google 会向所有美国用户推出 AI 模式。用户可以向 Gemini 提出几百字的问题,也能在后续体验到多模态问答功能和 Deep Research 能力。Google 也会在 Chrome 浏览器加入 AI 助手,帮助用户总结提炼页面信息。

目前,Gemini App 的月活跃用户数超过 4 亿。Gemini Live 将支持摄像头和屏幕共享,让 AI 帮助用户了解和记忆周围的环境。并且,Gemini 的 Agent 模式还将能够帮助用户找房、预约、订票。现场演示中,Gemini Live 可以指导用户学习如何修理自己的自行车,并帮助其打电话订购所需零件。

软件端之外,基础 Agent 也被应用在了硬件端。Android XR 被 Google 视为 Gemini 时代走向大众的首个 Android 平台。在现场的演示中,我们看到了 Gemini Live 能力的硬件化。Google 还计划未来几个月之内,把 Gemini 带到手表、汽车仪表盘,甚至电视上。

同样的,Google 也升级了 AI 化的编程工具。一方面,名为 Jules 的编程 Agent,可以像 GitHub Copilot 一样实现异步开发,可以自动重构代码、编写测试。另一方面,升级之后的 Gemini Code Assist 支持代码审核、长文件解析、多人协作,集成了个性化建议和团队代码规范工具。

从基础模型到软件,再到硬件和编程工具,Gemini 无疑是凝聚这一切的核心。Google 的策略很简单,就是要通过不断将 Gemini 的模型能力产品化,融入到现有的和未来场景中,来搭建起一个面向 AI 时代的系统雏形。

国内巨头还未找到真正突破口

尽管具体方向不同,但微软和 Google 共同验证了「AI 走向应用」的大趋势。

只不过,微软是在创造条件,让人们能够更轻松地探索 AI 应用;Google 则是要通过打造系统,让自己成为基础的 AI 应用。这是两个公司所具备的不同资源和禀赋决定的——微软以提供企业服务为主,Google 面向的是 C 端市场。

如果以这两家公司为参照物来观察国内的大厂,会发现阿里、腾讯、字节三家虽然还没有拎出特别清晰的主线,但在做 AI 应用的大趋势下也是各有侧重。

阿里在 AI 时代的优势体现在大模型和云服务上,to B 向开发者提供支持、构建开放 Agent 生态的路径比较顺畅。电商业务作为阿里在互联网时代的 C 端优势,很难顺畅转换为 AI 时代的 to C 应用支点。因此,夸克的重要性得到了提升。面向未来,阿里可能需要把 Agent 的发展势能注入夸克。

腾讯更接近 Google,拥有相对稳固的 C 端产品体系和流量入口,会优先考虑如何完成面向 C 端的存量产品改造和面向未来的 C 端产品创新,就像最近对 QQ 浏览器进行的改造。但相比 Google,腾讯的模型能力更弱,目前只能依靠 DeepSeek 和混元双模型驱动。腾讯虽然有增强自身大模型能力研发的动作,但还看不到腾讯版 Gemini2.5 出现的迹象。

字节也有 C 端流量,但短视频也同样难以直接转换为 AI 时代的 C 端入口。这也是为什么字节会重视豆包大模型的多模态能力,并在三家中最为积极地去探索 AI 硬件。To B 业务上,字节相对欠缺生态基础,需要找到更有效的开放方式。并且,与阿里一样,字节也更需要一个开放的 Agent 生态。

到目前为止,这些侧重也没有催生出像微软和 Google 一样的战略重心,看似布局全面的三家,都还没找到自己的真正突破口。