OpenAI把“研究自动化”拉成主线任务
2026年3月20日这篇 MIT Technology Review 报道把话挑明了:OpenAI is throwing everything into building a fully automated researcher。核心不是再做一个更会聊天的模型,而是做一个能独立推进复杂研究项目的 fully automated researcher。学友们可以把它理解成:从“会答题”升级到“会做课题”。
这个方向卡住行业很久了。传统 LLM 强在局部推理和语言生成,弱在长周期闭环:
- 任务拆解会漂移,今天定的 research plan,几轮之后目标就跑偏
- 工具调用不稳,检索、代码执行、表格分析、网页操作之间上下文经常断裂
- 证据链脆弱,结论看起来像论文口吻,但可复核性和可追溯性不足
- 评估体系缺位,很多 benchmark 评“答得像不像”,不评“科研流程能不能跑完”
行业竞争也很清晰:OpenAI deep research、Google 的 AI co-scientist、Sakana 的 AI Scientist 都在冲同一件事。聊天时代比参数,Agent 时代比 long-horizon reliability。
技术方案拆开看:不是单模型,而是研究流水线
MIT 这篇报道里最关键的信息是战略收敛:把 reasoning models + agents + interpretability 拉到一个目标函数下。这个组合很像“研究组织架构”而不是“单个超模”。
flowchart LR
G[研究目标] --> P[Planner 规划器]
P --> A1[Agent 文献与证据检索]
P --> A2[Agent 假设生成与反驳]
P --> A3[Agent 实验设计与代码执行]
A1 --> R[Reflection or Ranking]
A2 --> R
A3 --> R
R --> M[记忆与证据库]
M --> S[安全与可解释性网关]
S --> O[报告或下一轮实验]
O --> P
这套范式和早期 Copilot 的本质区别在于两点:
- 异步多Agent迭代:不是一次性回答,而是像实验室周会那样持续“提案-质疑-修正”
- test-time compute 作为能力杠杆:能力不只靠预训练参数,推理时愿意花多少算力也决定上限
几个公开结果能看出这条路线的技术底座:
deep research(OpenAI)在 Humanity’s Last Exam 给到 26.6%,GAIA 上pass@167.36、cons@6472.57。
Computer-Using Agent(OpenAI)在 OSWorld 38.1%、WebArena 58.1%、WebVoyager 87.0%。
AI co-scientist(Google)在其流程中用 Elo 选优后,GPQA diamondtop-1报告 78.4%,并做了湿实验验证场景。
直觉类比一下:
reasoning model像会推导的博士生agent orchestration像 PI 在排课题、分工和验收里程碑interpretability/safety像实验记录审计和伦理委员会
学友们如果做过真实科研就知道,最难从来不是“写一段看起来聪明的话”,而是跨周跨月把一个不确定项目推进到可验证结果。OpenAI这次押注,押的正是这道最难题。
学术与产业影响:会改写“谁在做发现”
学术侧会出现一波新问题,不是老的 NLP 排行榜问题:
- 如何定义
research quality objective(新颖性、可验证性、转化价值三者怎么权衡) - 如何设计面向科研闭环的评测(从回答正确率转向流程成功率)
- 多Agent系统的可扩展规律(任务可并行时增益大,强顺序任务可能反向掉点)
产业侧影响更直接:
- 制药/生物:靶点假设、药物重定位、实验优先级排序
- 材料与化工:配方搜索 + 模拟 + 文献证据整合
- 金融和政策:多源证据汇总、情景推演、反事实分析
- 企业研发:把“研究员时间”从搜资料和拼报告中解放出来
开源格局也分化:
- OpenAI 这条线目前是产品化闭源推进(
deep research、Operator/CUA) - Google
AI co-scientist发布了论文与博客,但主要是受控访问 - Sakana
AI Scientist/AI Scientist-v2明确开源代码,社区可复现路径更友好
和热点的连接非常紧:这就是 大模型 + Agent + 多模态工具调用 + 长时推理 + 安全治理 的汇合点。
冷静评估:亮点很真,水分也可能很真
先泼冷水,学友们别被“自动化研究员”五个字直接点燃:
-
有刷榜风险吗?有。
deep research的成绩包含浏览与工具能力,和纯文本模型横向对比时并非完全 apples-to-apples。- Google
AI co-scientist很多优势来自 Elo 自评链路,论文也明确提示它不是独立真值。
-
实验公平吗?部分公平,部分不公平。
- 强模型 + 强工具 + 强算力打弱基线,很容易形成“系统工程胜利”而非“算法本质胜利”。
- 小样本专家打分(如 11 个目标)能说明趋势,离“通用科研自动化成立”还远。
-
复现门槛高不高?非常高。
- 多Agent长时运行、海量工具调用、在线检索与安全网关,本身就是重基础设施工程。
- 普通课题组可以复现局部模块,难复现整条生产级闭环。
-
潜在 failure case 没讲透。
- citation laundering:引用看似充分,实则关键证据断裂
- reward hacking:模型学会讨好评审器,而不是逼近真实科学因果
- long-horizon drift:多轮迭代后目标悄悄偏移
- wet-lab gap:计算假设到真实实验之间仍有巨大鸿沟
-
伦理与安全压力会升级。
- 生物与化学领域的双用途风险会被放大
- 政策建议若被黑箱系统主导,问责边界会变得模糊
- 算力和数据进一步向头部集中,科研能力分配更不平等
要判断这条路线是否真的成立,盯三个信号就够:
- 能不能稳定复现跨领域、跨周期的真实科研增益
- 能不能把评测从“看起来聪明”升级到“可验证、可追责”
- 能不能在安全约束下保持创新速度,而不是二选一
学友们抛三个具体讨论点:
- 多Agent架构在强顺序任务里的性能衰减,靠更强
planner能补,还是要回到单Agent主干? test-time compute如果继续堆,科研系统会先撞上算力墙,还是先撞上评估墙?- 你们更看好闭源产品线(集成快)还是开源研究线(可审计、可复现)来先跑通“AI研究员”落地?
参考文献
- OpenAI is throwing everything into building a fully automated researcher — MIT Technology Review, 2026-03-20
- Introducing deep research — OpenAI, 2025-02-02(含 2026-02-10 更新)
- Computer-Using Agent — OpenAI, 2025-01-23
- Learning to reason with LLMs — OpenAI, 2024-09-12
- Accelerating scientific breakthroughs with an AI co-scientist — Google Research Blog, 2025-02-19
- Towards an AI co-scientist — arXiv, 2025-02-26
- Towards a science of scaling agent systems: When and why agent systems work — Google Research Blog, 2026-01-28
- The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search — arXiv, 2025-04-10
本文由 AI前沿追踪 自动生成 | 模型:
gpt-5.4| 2026年3月23日