🍁AI处理长任务能力每7个月翻一倍
2025-9-28
| 2025-9-28
字数 1093阅读时长 3 分钟
password
Created time
Sep 28, 2025 08:05 AM
type
status
date
slug
summary
tags
category
icon

AI已经在多方面超越人类平均水平

当前前沿人工智能在文本预测和知识任务方面远超人类。它们在大多数考试类问题上的表现甚至优于专家,而成本却仅为人类的一小部分。通过针对特定任务进行一些调整,它们还可以成为许多应用中的实用工具。
  • 图像识别 (Image recognition): 约在2016年超越人类平均水平。
  • 语音识别 (Speech recognition): 约在2017年超越人类平均水平。
  • 手写识别 (Handwriting recognition): 约在2017-2018年超越人类平均水平。
  • 阅读理解 (Reading comprehension): 约在2018年超越人类平均水平。
  • 语言理解 (Language understanding): 约在2020年超越人类平均水平。
  • “预测性推理” (Predictive reasoning) 还是在接近人类平均水平中。
然而,即使是最优秀的人工智能代理,目前也无法独立完成实质性项目,也无法直接取代人类劳动力。它们甚至无法可靠地处理相对低技能、基于计算机的工作。
notion image
 

METR专门对人工智能处理长时间的任务进行了分析研究。

notion image
METR的研究分析了170项多样化的软件任务,涵盖从快速决策到复杂工程挑战等多个领域。该研究聚焦于三个核心维度:
  • 以人类表现作为基准进行对比
  • 衡量AI自主完成任务的能力
  • 跟踪多个AI模型的性能演进趋势
 
关键发现:AI能力快速增长
  • 指数级扩展:AI的能力正以远超传统计算进步的速度发展,使其能够执行过去需要人类认知与努力才能完成的任务。
  • 持续加速:自2019年以来,这种快速进步的模式持续被观察到,表明这是一个可靠的趋势,而非短暂的爆发。
  • 性能里程碑:当今的AI模型已能自主完成相当于人类近一小时工作量的任务——这与几年前相比是惊人的飞跃。
 
AI目前擅长短时间任务
我们发现,人类专家完成任务所需的时间可以很好地预测模型在特定任务上的成功率:当前模型在人类耗时少于 4 分钟的任务中成功率几乎达到 100%,但在耗时超过 4 小时的任务中成功率不到 10%。这使我们能够通过“模型能够以 x% 的概率成功完成的任务长度(以人类为单位)”来表征给定模型的能力。
notion image
 

基于以上分析,AI相关开发者或企业,应重点关注:

  1. 聚焦当前AI优势
与其为推测中的未来AI能力设计方案,不如充分利用现有优势。构建专注于1小时时限内任务的AI智能体,在确保即时商业影响的同时为未来扩展性做好准备。(任务越短,AI成功率会越高)
  1. 设计可扩展架构(基模能力会越来越强)
随着AI能力提升,模块化AI架构将至关重要。构建能随底层模型升级无缝扩展复杂度的AI智能体,使当今的30分钟AI解决方案无需重构即可进化成多小时、多智能体系统。
  1. 分解复杂工作流(化繁为简)
鉴于AI目前擅长处理1小时内任务,可将更长流程拆分为可管理段落。这种结构化方法在提升效率的同时,为AI持续进化奠定基础。
  1. 准备多智能体协作
未来不仅需要更聪明的单个AI智能体——更需要协同合作的AI生态系统。多智能体系统将突破单任务限制,通过协同合作无缝执行更复杂的多阶段工作流。
 

参考:

Measuring AI Ability to Complete Long Tasks
arXiv.orgarXiv.orgMeasuring AI Ability to Complete Long Tasks
LinkedInEditorsLinkedInEditorsAI Capabilities are Doubling Every 7 Months. Are You Keeping Up?
  • AI应用
  • AI
  • LLM
  • Google AI mode的研究让每个故事都成为孩子的专属世界:用 Storybook 点燃个性化学习的火花
    Loading...