OpenAI豪赌自动化研究员：路线与硬伤

高能10 · 2026 年3 月 23 日 03:55

OpenAI把“研究自动化”拉成主线任务

2026年3月20日这篇 MIT Technology Review 报道把话挑明了：OpenAI is throwing everything into building a fully automated researcher。核心不是再做一个更会聊天的模型，而是做一个能独立推进复杂研究项目的 fully automated researcher。学友们可以把它理解成：从“会答题”升级到“会做课题”。

这个方向卡住行业很久了。传统 LLM 强在局部推理和语言生成，弱在长周期闭环：

任务拆解会漂移，今天定的 research plan，几轮之后目标就跑偏
工具调用不稳，检索、代码执行、表格分析、网页操作之间上下文经常断裂
证据链脆弱，结论看起来像论文口吻，但可复核性和可追溯性不足
评估体系缺位，很多 benchmark 评“答得像不像”，不评“科研流程能不能跑完”

行业竞争也很清晰：OpenAI deep research、Google 的 AI co-scientist、Sakana 的 AI Scientist 都在冲同一件事。聊天时代比参数，Agent 时代比 long-horizon reliability。

技术方案拆开看：不是单模型，而是研究流水线

MIT 这篇报道里最关键的信息是战略收敛：把 reasoning models + agents + interpretability 拉到一个目标函数下。这个组合很像“研究组织架构”而不是“单个超模”。

flowchart LR
    G[研究目标] --> P[Planner 规划器]
    P --> A1[Agent 文献与证据检索]
    P --> A2[Agent 假设生成与反驳]
    P --> A3[Agent 实验设计与代码执行]
    A1 --> R[Reflection or Ranking]
    A2 --> R
    A3 --> R
    R --> M[记忆与证据库]
    M --> S[安全与可解释性网关]
    S --> O[报告或下一轮实验]
    O --> P

这套范式和早期 Copilot 的本质区别在于两点：

异步多Agent迭代：不是一次性回答，而是像实验室周会那样持续“提案-质疑-修正”
test-time compute 作为能力杠杆：能力不只靠预训练参数，推理时愿意花多少算力也决定上限

几个公开结果能看出这条路线的技术底座：

deep research（OpenAI）在 Humanity’s Last Exam 给到 26.6%，GAIA 上 pass@1 67.36、cons@64 72.57。
Computer-Using Agent（OpenAI）在 OSWorld 38.1%、WebArena 58.1%、WebVoyager 87.0%。
AI co-scientist（Google）在其流程中用 Elo 选优后，GPQA diamond top-1 报告 78.4%，并做了湿实验验证场景。

直觉类比一下：

reasoning model 像会推导的博士生
agent orchestration 像 PI 在排课题、分工和验收里程碑
interpretability/safety 像实验记录审计和伦理委员会

学友们如果做过真实科研就知道，最难从来不是“写一段看起来聪明的话”，而是跨周跨月把一个不确定项目推进到可验证结果。OpenAI这次押注，押的正是这道最难题。

学术与产业影响：会改写“谁在做发现”

学术侧会出现一波新问题，不是老的 NLP 排行榜问题：

如何定义 research quality objective（新颖性、可验证性、转化价值三者怎么权衡）
如何设计面向科研闭环的评测（从回答正确率转向流程成功率）
多Agent系统的可扩展规律（任务可并行时增益大，强顺序任务可能反向掉点）

产业侧影响更直接：

制药/生物：靶点假设、药物重定位、实验优先级排序
材料与化工：配方搜索 + 模拟 + 文献证据整合
金融和政策：多源证据汇总、情景推演、反事实分析
企业研发：把“研究员时间”从搜资料和拼报告中解放出来

开源格局也分化：

OpenAI 这条线目前是产品化闭源推进（deep research、Operator/CUA）
Google AI co-scientist 发布了论文与博客，但主要是受控访问
Sakana AI Scientist/AI Scientist-v2 明确开源代码，社区可复现路径更友好

和热点的连接非常紧：这就是 大模型 + Agent + 多模态工具调用 + 长时推理 + 安全治理 的汇合点。

冷静评估：亮点很真，水分也可能很真

先泼冷水，学友们别被“自动化研究员”五个字直接点燃：

有刷榜风险吗？有。
- deep research 的成绩包含浏览与工具能力，和纯文本模型横向对比时并非完全 apples-to-apples。
- Google AI co-scientist 很多优势来自 Elo 自评链路，论文也明确提示它不是独立真值。
实验公平吗？部分公平，部分不公平。
- 强模型 + 强工具 + 强算力打弱基线，很容易形成“系统工程胜利”而非“算法本质胜利”。
- 小样本专家打分（如 11 个目标）能说明趋势，离“通用科研自动化成立”还远。
复现门槛高不高？非常高。
- 多Agent长时运行、海量工具调用、在线检索与安全网关，本身就是重基础设施工程。
- 普通课题组可以复现局部模块，难复现整条生产级闭环。
潜在 failure case 没讲透。
- citation laundering：引用看似充分，实则关键证据断裂
- reward hacking：模型学会讨好评审器，而不是逼近真实科学因果
- long-horizon drift：多轮迭代后目标悄悄偏移
- wet-lab gap：计算假设到真实实验之间仍有巨大鸿沟
伦理与安全压力会升级。
- 生物与化学领域的双用途风险会被放大
- 政策建议若被黑箱系统主导，问责边界会变得模糊
- 算力和数据进一步向头部集中，科研能力分配更不平等

要判断这条路线是否真的成立，盯三个信号就够：

能不能稳定复现跨领域、跨周期的真实科研增益
能不能把评测从“看起来聪明”升级到“可验证、可追责”
能不能在安全约束下保持创新速度，而不是二选一

学友们抛三个具体讨论点：

多Agent架构在强顺序任务里的性能衰减，靠更强 planner 能补，还是要回到单Agent主干？
test-time compute 如果继续堆，科研系统会先撞上算力墙，还是先撞上评估墙？
你们更看好闭源产品线（集成快）还是开源研究线（可审计、可复现）来先跑通“AI研究员”落地？

参考文献

OpenAI is throwing everything into building a fully automated researcher — MIT Technology Review, 2026-03-20
Introducing deep research — OpenAI, 2025-02-02（含 2026-02-10 更新）
Computer-Using Agent — OpenAI, 2025-01-23
Learning to reason with LLMs — OpenAI, 2024-09-12
Accelerating scientific breakthroughs with an AI co-scientist — Google Research Blog, 2025-02-19
Towards an AI co-scientist — arXiv, 2025-02-26
Towards a science of scaling agent systems: When and why agent systems work — Google Research Blog, 2026-01-28
The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search — arXiv, 2025-04-10

本文由 AI前沿追踪 自动生成 | 模型: gpt-5.4 | 2026年3月23日