学友们,AGI 讨论最尴尬的一点一直是:模型越来越强,但量尺一直在变。DeepMind 这次在 2026-03-17 发布的 Measuring progress toward AGI: A cognitive framework 和配套论文 Measuring Progress Toward AGI: A Cognitive Framework,核心就是把 AGI 评估从口号拉回到可执行方法学。
AGI评测卡在哪:模型在狂飙,量尺在失真
过去几年大家熟悉的是单榜单冲分逻辑:数学、代码、问答各刷一轮,谁第一谁发新闻。但 AGI 不是单任务冠军赛,它是广度+深度+稳定性的组合题。DeepMind 在文中点得很直接:现有基准覆盖不全,尤其在 learning、metacognition、attention、social cognition 这些认知层面长期缺口,而且大量公开数据集天然有污染风险。
这波框架不是凭空冒出来。2024 年 Levels of AGI for Operationalizing Progress on the Path to AGI 已经把 AGI 拆成 performance × generality × autonomy;2025 年 A Definition of AGI 也走了认知分解路线。行业共识在收敛:AGI 不该是单一分数,而是认知剖面。
竞争格局也很说明问题:
ARC-AGI-2 技术报告(2025-05-14 基线)里,
o3 (Medium)约 3.0%、Claude 3.7 (8K)约 0.9%,并明确说 5% 以下通常接近噪声区间。
但 DeepMind 在 2026-02-12 的 Gemini 3 Deep Think 更新中宣称 ARC-AGI-2 达到 84.6%。
同一个 benchmark,时间线内分数跨度巨大。很容易得出一个推断:评测战已经不是单纯拼分,而是拼测试协议、算力预算、是否可审计、是否可复现。(这里是推断)
方案拆解:10类认知能力 + 3阶段评估协议
这篇工作的技术核心很硬:先定义认知空间,再定义测量流程。
10 个认知能力分成基础层和组合层:
- 基础层:
Perception、Generation、Attention、Learning、Memory、Reasoning、Metacognition、Executive functions - 组合层:
Problem solving、Social cognition
这个设计很像给模型做神经心理测评,不再问“你总分多少”,而是问“你哪块肌肉强、哪块代偿、哪块短板会在真实任务里爆雷”。
flowchart LR
A[认知任务池 10 faculties] --> B[AI系统评测
使用held-out测试]
B --> C[人类基线采样
成人且具中等教育以上]
C --> D[按能力维度映射百分位]
D --> E[生成认知画像
strengths vs weaknesses]
评估协议是三步:
- 在每个认知能力上构建任务簇,且要求
held-out防污染 - 对同任务采集人类基线,且样本要有人口统计代表性
- 把 AI 放到人类分布上定位,形成
cognitive profile
论文里给了很关键的门槛示意(不是实测榜单):
- 某些能力低于人类中位数:真实场景里会有明显短板
- 全能力高于中位数:可覆盖大量现实任务
- 全能力接近 99 分位:才接近“几乎对齐人类上沿”
还补了统计学细节:能力分可以简单聚合,也可以用 Item Response Theory。并且必须显式建模三类不确定性:task quality、construct validity、stochasticity。这一点非常专业,直接承认了 LLM 多次采样会抖动,单次跑分不可靠。
一个很实用的直觉公式可以这样理解(推断):
faculty_percentile = P(human_score <= ai_score),最后看 10 维最短板,而不是平均分。
从理论到落地:Kaggle 黑客松就是压力测试
DeepMind 没停在论文,直接开了 Kaggle 赛道,主攻评测缺口最大的五块:learning、metacognition、attention、executive functions、social cognition。奖金池 20 万美元,提交窗口是 2026-03-17 到 2026-04-16,2026-06-01 公布结果。
更有意思的是它挂接了 Kaggle 的 Community Benchmarks 体系:Introducing Community Benchmarks on Kaggle。这套体系支持多轮交互、工具调用、多模态测试,背后 SDK 也开源了:kaggle-benchmarks。
这意味着评测对象从“裸模型 checkpoint”转向“系统级 agent(含工具、指令、外部调用)”。论文第 4.3 节同样明确建议按系统整体评,不只看底座模型。
学术与产业影响:从排行榜文化转向认知工程
对学术界,这个框架把认知科学、心理测量、AI eval 三条线绑到一起了。后续会出现两类新论文:
- 新型认知任务设计:怎么把能力隔离得更干净
- 人类基线工程:抽样、难度标定、跨文化可比性
对产业界,价值在于“能力地图可解释”。一个模型在代码上很猛,但 metacognition 弱,部署 agent 就可能出现高置信胡说、错误自修复差、长任务漂移。这个框架天然适配当下热点:大模型、Agent、多模态都能映射到 10 维认知画像里。
开源层面目前是“半开半闭”:
- 开放:论文、方法学、Kaggle 社区工具链、SDK
- 不完全开放:高价值评测通常依赖私有/held-out 测试集与专门人类基线流程
冷静评估:这篇很重要,但离终局还早
这套方案优点明显,但学友们也别上头:
- 有方法,暂时缺大规模统一实测榜:论文主体给的是框架与假想画像,不是完整跨模型实测矩阵
- 人类中心偏置仍在:10 维来自人类认知传统,AI 可能出现“非人型强项”被低估
- 系统级评测有混淆项:工具接入既提升能力,也会掩盖模型本体短板
- 复现门槛高:要做代表性人类样本、独立审计、重复采样,成本对普通实验室不友好
- 安全维度还要加码:论文把
deception、persuasion放进 social cognition 能力,说明高分不等于低风险,能力增强可能同步放大误用面
这篇工作的真正价值不是给出“离 AGI 还差几年”的答案,而是把问题改写成“哪一维还没过人类中位线,为什么没过”。从工程角度看,这比任何单一 benchmark 冠军都更有长期含金量。
学友们可以直接开聊的三个技术点
- 你们觉得 10 维里最难做干净评测的是
metacognition还是social cognition?怎么防 prompt trick? - 系统级评测允许工具调用后,怎么避免把“搜索能力”误判成“记忆/推理能力”?
- 如果要把这套框架接到 Agent 生产环境,你会优先盯哪三个维度作为上线闸门?
参考文献
- Measuring progress toward AGI: A cognitive framework — Google DeepMind Blog, 2026-03-17
- Measuring Progress Toward AGI: A Cognitive Framework — Google DeepMind, 2026-03-16
- Introducing Community Benchmarks on Kaggle — Google/Kaggle, 2026-01-14
- Kaggle Benchmarks SDK — GitHub, 持续更新
- Levels of AGI for Operationalizing Progress on the Path to AGI — arXiv/ICML, v5 2025-09-24
- ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems — arXiv, v2 2026-01-15
- Gemini 3 Deep Think: Advancing science, research and engineering — Google DeepMind Blog, 2026-02-12
- A Definition of AGI — arXiv, v3 2025-12-03
本文由 AI前沿追踪 自动生成 | 模型:
gpt-5.4| 2026年3月23日