OpenAI豪赌自动化研究员:路线与硬伤

OpenAI把“研究自动化”拉成主线任务

2026年3月20日这篇 MIT Technology Review 报道把话挑明了:OpenAI is throwing everything into building a fully automated researcher。核心不是再做一个更会聊天的模型,而是做一个能独立推进复杂研究项目的 fully automated researcher。学友们可以把它理解成:从“会答题”升级到“会做课题”。

这个方向卡住行业很久了。传统 LLM 强在局部推理和语言生成,弱在长周期闭环:

  • 任务拆解会漂移,今天定的 research plan,几轮之后目标就跑偏
  • 工具调用不稳,检索、代码执行、表格分析、网页操作之间上下文经常断裂
  • 证据链脆弱,结论看起来像论文口吻,但可复核性和可追溯性不足
  • 评估体系缺位,很多 benchmark 评“答得像不像”,不评“科研流程能不能跑完”

行业竞争也很清晰:OpenAI deep research、Google 的 AI co-scientist、Sakana 的 AI Scientist 都在冲同一件事。聊天时代比参数,Agent 时代比 long-horizon reliability

技术方案拆开看:不是单模型,而是研究流水线

MIT 这篇报道里最关键的信息是战略收敛:把 reasoning models + agents + interpretability 拉到一个目标函数下。这个组合很像“研究组织架构”而不是“单个超模”。

flowchart LR
    G[研究目标] --> P[Planner 规划器]
    P --> A1[Agent 文献与证据检索]
    P --> A2[Agent 假设生成与反驳]
    P --> A3[Agent 实验设计与代码执行]
    A1 --> R[Reflection or Ranking]
    A2 --> R
    A3 --> R
    R --> M[记忆与证据库]
    M --> S[安全与可解释性网关]
    S --> O[报告或下一轮实验]
    O --> P

这套范式和早期 Copilot 的本质区别在于两点:

  • 异步多Agent迭代:不是一次性回答,而是像实验室周会那样持续“提案-质疑-修正”
  • test-time compute 作为能力杠杆:能力不只靠预训练参数,推理时愿意花多少算力也决定上限

几个公开结果能看出这条路线的技术底座:

deep research(OpenAI)在 Humanity’s Last Exam 给到 26.6%,GAIA 上 pass@1 67.36cons@64 72.57
Computer-Using Agent(OpenAI)在 OSWorld 38.1%、WebArena 58.1%、WebVoyager 87.0%
AI co-scientist(Google)在其流程中用 Elo 选优后,GPQA diamond top-1 报告 78.4%,并做了湿实验验证场景。

直觉类比一下:

  • reasoning model 像会推导的博士生
  • agent orchestration 像 PI 在排课题、分工和验收里程碑
  • interpretability/safety 像实验记录审计和伦理委员会

学友们如果做过真实科研就知道,最难从来不是“写一段看起来聪明的话”,而是跨周跨月把一个不确定项目推进到可验证结果。OpenAI这次押注,押的正是这道最难题。

学术与产业影响:会改写“谁在做发现”

学术侧会出现一波新问题,不是老的 NLP 排行榜问题:

  • 如何定义 research quality objective(新颖性、可验证性、转化价值三者怎么权衡)
  • 如何设计面向科研闭环的评测(从回答正确率转向流程成功率)
  • 多Agent系统的可扩展规律(任务可并行时增益大,强顺序任务可能反向掉点)

产业侧影响更直接:

  • 制药/生物:靶点假设、药物重定位、实验优先级排序
  • 材料与化工:配方搜索 + 模拟 + 文献证据整合
  • 金融和政策:多源证据汇总、情景推演、反事实分析
  • 企业研发:把“研究员时间”从搜资料和拼报告中解放出来

开源格局也分化:

  • OpenAI 这条线目前是产品化闭源推进(deep researchOperator/CUA
  • Google AI co-scientist 发布了论文与博客,但主要是受控访问
  • Sakana AI Scientist/AI Scientist-v2 明确开源代码,社区可复现路径更友好

和热点的连接非常紧:这就是 大模型 + Agent + 多模态工具调用 + 长时推理 + 安全治理 的汇合点。

冷静评估:亮点很真,水分也可能很真

先泼冷水,学友们别被“自动化研究员”五个字直接点燃:

  • 有刷榜风险吗?有。

    • deep research 的成绩包含浏览与工具能力,和纯文本模型横向对比时并非完全 apples-to-apples。
    • Google AI co-scientist 很多优势来自 Elo 自评链路,论文也明确提示它不是独立真值。
  • 实验公平吗?部分公平,部分不公平。

    • 强模型 + 强工具 + 强算力打弱基线,很容易形成“系统工程胜利”而非“算法本质胜利”。
    • 小样本专家打分(如 11 个目标)能说明趋势,离“通用科研自动化成立”还远。
  • 复现门槛高不高?非常高。

    • 多Agent长时运行、海量工具调用、在线检索与安全网关,本身就是重基础设施工程。
    • 普通课题组可以复现局部模块,难复现整条生产级闭环。
  • 潜在 failure case 没讲透。

    • citation laundering:引用看似充分,实则关键证据断裂
    • reward hacking:模型学会讨好评审器,而不是逼近真实科学因果
    • long-horizon drift:多轮迭代后目标悄悄偏移
    • wet-lab gap:计算假设到真实实验之间仍有巨大鸿沟
  • 伦理与安全压力会升级。

    • 生物与化学领域的双用途风险会被放大
    • 政策建议若被黑箱系统主导,问责边界会变得模糊
    • 算力和数据进一步向头部集中,科研能力分配更不平等

要判断这条路线是否真的成立,盯三个信号就够:

  • 能不能稳定复现跨领域、跨周期的真实科研增益
  • 能不能把评测从“看起来聪明”升级到“可验证、可追责”
  • 能不能在安全约束下保持创新速度,而不是二选一

学友们抛三个具体讨论点:

  1. 多Agent架构在强顺序任务里的性能衰减,靠更强 planner 能补,还是要回到单Agent主干?
  2. test-time compute 如果继续堆,科研系统会先撞上算力墙,还是先撞上评估墙?
  3. 你们更看好闭源产品线(集成快)还是开源研究线(可审计、可复现)来先跑通“AI研究员”落地?

参考文献

  1. OpenAI is throwing everything into building a fully automated researcher — MIT Technology Review, 2026-03-20
  2. Introducing deep research — OpenAI, 2025-02-02(含 2026-02-10 更新)
  3. Computer-Using Agent — OpenAI, 2025-01-23
  4. Learning to reason with LLMs — OpenAI, 2024-09-12
  5. Accelerating scientific breakthroughs with an AI co-scientist — Google Research Blog, 2025-02-19
  6. Towards an AI co-scientist — arXiv, 2025-02-26
  7. Towards a science of scaling agent systems: When and why agent systems work — Google Research Blog, 2026-01-28
  8. The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search — arXiv, 2025-04-10

本文由 AI前沿追踪 自动生成 | 模型: gpt-5.4 | 2026年3月23日