DeepMind把AGI评测拆成10种认知能力，真能防刷榜吗

高能10 · 2026 年3 月 23 日 03:54

学友们，AGI 讨论最尴尬的一点一直是：模型越来越强，但量尺一直在变。DeepMind 这次在 2026-03-17 发布的 Measuring progress toward AGI: A cognitive framework 和配套论文 Measuring Progress Toward AGI: A Cognitive Framework，核心就是把 AGI 评估从口号拉回到可执行方法学。

AGI评测卡在哪：模型在狂飙，量尺在失真

过去几年大家熟悉的是单榜单冲分逻辑：数学、代码、问答各刷一轮，谁第一谁发新闻。但 AGI 不是单任务冠军赛，它是广度+深度+稳定性的组合题。DeepMind 在文中点得很直接：现有基准覆盖不全，尤其在 learning、metacognition、attention、social cognition 这些认知层面长期缺口，而且大量公开数据集天然有污染风险。

这波框架不是凭空冒出来。2024 年 Levels of AGI for Operationalizing Progress on the Path to AGI 已经把 AGI 拆成 performance × generality × autonomy；2025 年 A Definition of AGI 也走了认知分解路线。行业共识在收敛：AGI 不该是单一分数，而是认知剖面。

竞争格局也很说明问题：

ARC-AGI-2 技术报告（2025-05-14 基线）里，o3 (Medium) 约 3.0%、Claude 3.7 (8K) 约 0.9%，并明确说 5% 以下通常接近噪声区间。
但 DeepMind 在 2026-02-12 的 Gemini 3 Deep Think 更新中宣称 ARC-AGI-2 达到 84.6%。

同一个 benchmark，时间线内分数跨度巨大。很容易得出一个推断：评测战已经不是单纯拼分，而是拼测试协议、算力预算、是否可审计、是否可复现。（这里是推断）

方案拆解：10类认知能力 + 3阶段评估协议

这篇工作的技术核心很硬：先定义认知空间，再定义测量流程。

10 个认知能力分成基础层和组合层：

基础层：Perception、Generation、Attention、Learning、Memory、Reasoning、Metacognition、Executive functions
组合层：Problem solving、Social cognition

这个设计很像给模型做神经心理测评，不再问“你总分多少”，而是问“你哪块肌肉强、哪块代偿、哪块短板会在真实任务里爆雷”。

flowchart LR
    A[认知任务池 10 faculties] --> B[AI系统评测
    使用held-out测试]
    B --> C[人类基线采样
    成人且具中等教育以上]
    C --> D[按能力维度映射百分位]
    D --> E[生成认知画像
    strengths vs weaknesses]

评估协议是三步：

在每个认知能力上构建任务簇，且要求 held-out 防污染
对同任务采集人类基线，且样本要有人口统计代表性
把 AI 放到人类分布上定位，形成 cognitive profile

论文里给了很关键的门槛示意（不是实测榜单）：

某些能力低于人类中位数：真实场景里会有明显短板
全能力高于中位数：可覆盖大量现实任务
全能力接近 99 分位：才接近“几乎对齐人类上沿”

还补了统计学细节：能力分可以简单聚合，也可以用 Item Response Theory。并且必须显式建模三类不确定性：task quality、construct validity、stochasticity。这一点非常专业，直接承认了 LLM 多次采样会抖动，单次跑分不可靠。

一个很实用的直觉公式可以这样理解（推断）：
faculty_percentile = P(human_score <= ai_score)，最后看 10 维最短板，而不是平均分。

从理论到落地：Kaggle 黑客松就是压力测试

DeepMind 没停在论文，直接开了 Kaggle 赛道，主攻评测缺口最大的五块：learning、metacognition、attention、executive functions、social cognition。奖金池 20 万美元，提交窗口是 2026-03-17 到 2026-04-16，2026-06-01 公布结果。

更有意思的是它挂接了 Kaggle 的 Community Benchmarks 体系：Introducing Community Benchmarks on Kaggle。这套体系支持多轮交互、工具调用、多模态测试，背后 SDK 也开源了：kaggle-benchmarks。

这意味着评测对象从“裸模型 checkpoint”转向“系统级 agent（含工具、指令、外部调用）”。论文第 4.3 节同样明确建议按系统整体评，不只看底座模型。

学术与产业影响：从排行榜文化转向认知工程

对学术界，这个框架把认知科学、心理测量、AI eval 三条线绑到一起了。后续会出现两类新论文：

新型认知任务设计：怎么把能力隔离得更干净
人类基线工程：抽样、难度标定、跨文化可比性

对产业界，价值在于“能力地图可解释”。一个模型在代码上很猛，但 metacognition 弱，部署 agent 就可能出现高置信胡说、错误自修复差、长任务漂移。这个框架天然适配当下热点：大模型、Agent、多模态都能映射到 10 维认知画像里。

开源层面目前是“半开半闭”：

开放：论文、方法学、Kaggle 社区工具链、SDK
不完全开放：高价值评测通常依赖私有/held-out 测试集与专门人类基线流程

冷静评估：这篇很重要，但离终局还早

这套方案优点明显，但学友们也别上头：

有方法，暂时缺大规模统一实测榜：论文主体给的是框架与假想画像，不是完整跨模型实测矩阵
人类中心偏置仍在：10 维来自人类认知传统，AI 可能出现“非人型强项”被低估
系统级评测有混淆项：工具接入既提升能力，也会掩盖模型本体短板
复现门槛高：要做代表性人类样本、独立审计、重复采样，成本对普通实验室不友好
安全维度还要加码：论文把 deception、persuasion 放进 social cognition 能力，说明高分不等于低风险，能力增强可能同步放大误用面

这篇工作的真正价值不是给出“离 AGI 还差几年”的答案，而是把问题改写成“哪一维还没过人类中位线，为什么没过”。从工程角度看，这比任何单一 benchmark 冠军都更有长期含金量。

学友们可以直接开聊的三个技术点

你们觉得 10 维里最难做干净评测的是 metacognition 还是 social cognition？怎么防 prompt trick？
系统级评测允许工具调用后，怎么避免把“搜索能力”误判成“记忆/推理能力”？
如果要把这套框架接到 Agent 生产环境，你会优先盯哪三个维度作为上线闸门？

参考文献

Measuring progress toward AGI: A cognitive framework — Google DeepMind Blog, 2026-03-17
Measuring Progress Toward AGI: A Cognitive Framework — Google DeepMind, 2026-03-16
Introducing Community Benchmarks on Kaggle — Google/Kaggle, 2026-01-14
Kaggle Benchmarks SDK — GitHub, 持续更新
Levels of AGI for Operationalizing Progress on the Path to AGI — arXiv/ICML, v5 2025-09-24
ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems — arXiv, v2 2026-01-15
Gemini 3 Deep Think: Advancing science, research and engineering — Google DeepMind Blog, 2026-02-12
A Definition of AGI — arXiv, v3 2025-12-03

本文由 AI前沿追踪 自动生成 | 模型: gpt-5.4 | 2026年3月23日