password
Created time
Dec 14, 2025 03:14 AM
type
status
date
slug
summary
tags
category
icon
✍️ 引言 (Hook)
就在昨天(2025年12月10日),科技圈发生了一件看似"魔幻"却又在意料之中的事:那个你每天用来开会的Zoom,在AI领域最硬核的考试——"Humanity's Last Exam" (HLE) 中,拿下了全球第一。
你没听错,Zoom的AI架构以 48.1% 的得分,击败了Google的 Gemini 3 Pro (45.8%) 和 Anthropic 的 Claude Opus 4.5。这不仅是一个分数的超越,更是一个信号:单纯依赖“更大参数量”的单体模型时代正在终结,智能编排(Orchestration)的联邦AI时代已经到来。
我深入研读了Zoom CTO黄学东发布的最新技术博文,发现这次胜利并非偶然,而是工程化思维对纯科研思维的一次降维打击。
🎯 核心要点
- HLE新王登基: Zoom以48.1%的SOTA成绩,证明了应用层公司在特定高难度推理任务上可以超越基座模型厂商。
- 联邦AI (Federated AI) 胜利: 核心不是训练了一个最强的模型,而是通过“联邦”架构,指挥了包括开源、闭源及自研小模型在内的多支“军队”。
- 新范式: 提出了 "Explore–Verify–Federate"(探索-验证-联邦)的Agentic工作流,取代了传统的单一推理路径。
📖 文章正文
1. 告别MMLU,拥抱"人类最后一次考试" (HLE)
如果说2023-2024年的MMLU是小学生的期末考,那么2025年普及的 Humanity's Last Exam (HLE) 就是博士资格答辩。
传统的Benchmark早已被各大模型刷爆(分数普遍90%+),失去了区分度。而HLE由全球各领域专家设计,不仅要求知识储备,更要求多步推理(Multi-step reasoning)、跨领域知识综合以及极其严苛的闭卷能力。
- Gemini 3 Pro得分: 45.8%
- Zoom AI得分: 48.1%
在这样的高难度下,2.3%的提升不仅仅是统计学上的差异,而是推理稳定性上的质变。
2. 解密Zoom的"核武器":联邦AI (Federated AI)
Zoom之所以能赢,是因为他们没有试图去造一个"神",而是组建了一个"专家委员会"。
核心架构:Z-Scorer系统
Zoom并未依赖单一模型,而是构建了一个名为 Federated AI 的系统。这套系统的核心逻辑是:不求单个模型全知全能,但求调度机制精准无误。
- 混合编队: 系统内部集成了Zoom自研的领域特定小模型(SLMs)、先进的开源模型以及顶级的闭源模型(如GPT-4o/5, Claude等)。
- Z-Scorer (Z评分器): 这是一个元模型(Meta-model),专门负责评估哪个模型在当前任务上表现最好,或者如何组合多个模型的输出。
3. 胜负手:Explore–Verify–Federate 工作流
这是Zoom技术博客中最值得深挖的干货。他们抛弃了简单的 Chain-of-Thought (CoT),采用了一种类似人类系统2 (System 2) 的慢思考机制:
- 探索 (Explore): 不是生成一条推理路径,而是发散性地生成多条可能的推理路径。
- 验证 (Verify): 引入极其严格的验证模块(Verifier),对每一条路径进行逻辑校验和事实核查。
- 联邦 (Federate): 通过辩证协作(Dialectical Collaboration),让不同模型相互挑战、修正,最后由系统综合出最优解。
💡 技术洞察: 这实际上是将**Agentic Workflow(智能体工作流)**内化为了模型的基础推理能力。Zoom证明了,与其等待模型本身变聪明,不如先通过优秀的流程设计让模型"显得"更聪明。
4. 从AIC 1.0 到 AIC 3.0 的进化逻辑
Zoom的AI Companion (AIC) 演进路线图,清晰地展示了企业级AI的发展趋势:
- AIC 1.0 (基础辅助): 也就是我们熟悉的会议摘要、待办事项提取。
- AIC 2.0 (连接者): 引入跨平台数据(Gmail/Outlook)和联网搜索(Perplexity)。
- AIC 3.0 (智能体): 即本次发布的版本,具备了复杂推理、主动写入和工作流自动化能力。
5. 类比
- Google Gemini/GPT 就像一位极其厉害的全科医生,什么都懂,智商极高。
- Zoom的联邦AI 则是一个三甲医院的会诊中心。遇到疑难杂症(HLE难题),它不会只让一个人看,而是先让实习生(小模型)整理病历,再请内科、外科、影像科专家(不同大模型)分别给出意见,最后由科室主任(Z-Scorer/Verifier)拍板。虽然单个专家的智商可能不如那位全科医生,但会诊机制保证了结果的准确性。
💡 关键洞察
- 应用层的逆袭: AI技术护城河正在从"模型层"上移到"架构层"。掌握场景和工作流设计的公司,即便不训练千亿参数模型,也能在特定任务上超越基座厂商。
- 推理成本的经济账: Zoom明确提到,联邦架构允许他们大量使用"高精度的自研小模型",只在必要时调用昂贵的大模型。这在商业上比"All-in一个超级大模型"更加可持续。
- 未来的AI是协作的: 正如黄学东所言,AI的未来在于"Orchestration"(编排)。我们不需要每一个模型都是爱因斯坦,我们需要的是一个能把一群普通人和几个天才组织起来的高效系统。
🚀 行动建议
- 对于开发者: 还是不要只靠单一SOTA模型。开始研究 DSPy 或 LangChain 等的高级编排模式,尝试构建自己的 "Router" 和 "Verifier"。
- 对于CTO/架构师: 在企业内部落地AI时,不要只看基座模型评分,要开始评估RAG架构的深度和**多模型路由(Model Routing)**的策略。
- 对于产品经理: 关注"慢思考"的用户体验设计。为了更高的准确率,用户是可以容忍系统多思考几秒钟的(Explore-Verify的过程)。
原文:
ZoomZoom AI sets new state-of-the-art benchmark on Humanity's Last Exam

Zoom AI sets new state-of-the-art benchmark on Humanity's Last Exam
Federated innovation driving breakthrough results in complex AI testing