主题
D - AI/ML 自动化科研来源与工具地图
从开源自动化科研项目和 agent skills 中提炼经验,也给读者提供可单独运行的工具入口
这张地图怎么用
这份附录不是“项目收藏夹”,而是一本 AI/ML 研究手册的来源索引。
使用方式:
- 当你准备扩写某一章时,先看哪些来源最相关
- 优先提炼可迁移的流程、检查项和产物
- 不要把某个项目的 prompt 或 API 细节直接写成“通用原则”
- 始终补上“哪些地方必须由人复核”
来源矩阵
| 来源 | 类型 | 适合补充的章节 | 可提炼经验 | 注意事项 |
|---|---|---|---|---|
| ARIS | 端到端自动科研 workflow | 01-13 | 阶段拆分、产物契约、自动审稿循环、状态沉淀 | 是当前第一来源,但不应成为唯一来源 |
| Research-Paper-Writing-Skills | 写作方法论 | 09-12 | 论文结构、写作顺序、rebuttal 模板 | 更偏人工写作,不是自动化系统 |
| claude-scholar | 引用验证协议 | 02, 04, 11 | 引用核验、证据归因、降低误引风险 | 更适合做引用规范,而不是通用检索框架 |
| The AI Scientist | 自动科研系统 | 03, 05, 08, 11 | idea→experiment→paper→review 闭环、并行试错、自动审稿 | 更适合代码可执行的研究任务 |
| PaSa | 学术论文检索 agent | 02, 04 | 复杂 scholarly query 的多轮检索、读论文、筛相关参考文献 | 适合扩展检索广度和召回,不直接替代人工相关性判断 |
| Open Deep Research | 深度研究 agent | 02, 04 | 多轮检索、任务分解、结构化研究报告 | 适合作为调研助手,不直接替代新颖性判断 |
| GPT Researcher | 自主 deep research agent | 02, 04, 11 | 主题调研、报告生成、资料归档 | 输出应视为草稿,仍需人工核证 |
| STORM | 带引用的知识整理系统 | 02, 09, 11 | 主题拆分、带引用综述、写作前知识组织 | 更适合 pre-writing 阶段,不直接等于可投稿正文 |
| PaperQA2 | 文献问答系统 | 02, 04, 11 | 基于 PDF/文献库的问答、证据定位、引用支撑 | 很适合做 claim cross-check |
| Scholar QA | 文献综述与问答系统 | 02, 04 | 大规模检索、长程证据整合、学术问答 | 更适合补充调研广度 |
| HypoGeniC / hypothesis-generation | 假设生成系统 | 03, 07 | 从数据和观察生成候选假设、比较假设质量 | 适合作为想法发生器,不适合直接当结论 |
| Anthropic Skills | 通用 skill 设计仓库 | 全书 | 输入输出契约、可复用任务封装方式、skill 候选提升规则 | 偏通用 skill 设计,不是科研专用 |
| AI-research-SKILLs | 研究型 skills 集合 | 02, 03, 05, 08, 13 | 把研究任务拆成可重复调用的技能单元,并沉淀为可复用资产 | 需要筛选哪些 skill 真正稳定可迁移 |
可单独运行的工具项目
1. Idea 发现与假设生成
| 项目 | 适合输入 | 适合输出 | 适合本书中的位置 |
|---|---|---|---|
| The AI Scientist | 明确的任务边界、可运行 baseline | 候选想法、实验计划、初稿 | 03-想法生成, 05-实验设计, 08-自动迭代循环 |
| HypoGeniC / hypothesis-generation | 观察、实验结果、现象描述 | 候选假设及排序 | 03-想法生成, 07-结果分析 |
2. 检索、综述与新颖性验证
| 项目 | 强项 | 适合输出 | 适合本书中的位置 |
|---|---|---|---|
| PaSa | 复杂学术 query 的 agentic 检索与候选论文筛选 | 候选论文池、相关参考文献、扩展检索结果 | 02-文献调研, 04-新颖性验证 |
| Open Deep Research | 多轮检索和规划 | 深度研究报告、问题分解 | 02-文献调研, 04-新颖性验证 |
| GPT Researcher | 自主研究和报告生成 | 主题综述、资料汇编 | 02-文献调研 |
| STORM | 带引用的知识组织 | 写作前背景综述 | 02-文献调研, 09-论文结构 |
| PaperQA2 | 基于文献库的问答与引用定位 | claim 支撑、证据片段、对比问答 | 04-新颖性验证, 11-写作与润色 |
| Scholar QA | 检索和长上下文学术问答 | 文献整合问答、背景比较 | 02-文献调研, 04-新颖性验证 |
3. 审稿、质检与写作支撑
| 项目 | 更适合做什么 | 不应直接替代什么 |
|---|---|---|
ARIS 中的 research-review / auto-review-loop | 审稿模拟、问题分级、迭代记录 | 真实专家审稿 |
| The AI Scientist | 自动生成论文和 review 信号 | 最终投稿前的人类把关 |
| PaperQA2 | 检查 claim 是否有文献支撑 | 作者对论断强度的最终判断 |
| claude-scholar | 引用核验协议 | 全部写作决策 |
4. 作为“来源”而不是“工具”的 skill 仓库
这些仓库不一定直接跑出论文,但非常适合拿来提炼“任务契约”:
| 仓库 | 适合提炼什么 |
|---|---|
| Anthropic Skills | skill 的输入输出、复用边界、失败回退 |
| AI-research-SKILLs | 科研任务拆分、角色提示、执行顺序 |
| ARIS skills | AI/ML 研究任务的阶段化技能设计 |
建议优先纳入正文的路线
第一优先级
02-文献调研
- 引入 PaSa、Open Deep Research、GPT Researcher、STORM、PaperQA2 的工作方式
- 把“单篇读论文”扩展成“多轮检索 + 归纳 + 引用归因”
03-想法生成
- 引入 The AI Scientist、HypoGeniC
- 把“头脑风暴”扩展成“候选想法池 + 排名 + 淘汰记录”
04-新颖性验证
- 引入 PaperQA2、Scholar QA
- 把“搜索过没有”扩展成“claim 级别的新颖性对比”
第二优先级
08-自动迭代循环
- 对照 ARIS 和 The AI Scientist
- 增强“反馈解析、修复决策、循环停止条件”
11-写作与润色
- 引入 citation-grounded QA 和作者化审校
- 强化“作者责任、引用核验、claim-evidence 对齐”
第三优先级
附录 A
- 增加这些项目的本地接入方式和适用边界
13-复盘与资产化
- 把项目沉淀成 skill、模板、失败案例和标准产物
纳入这些来源时的原则
- 提炼流程,不照抄 prompt
- 提炼稳定产物,不绑定特定模型
- 明确 agent 能做什么,也明确人必须复核什么
- 优先写“适用边界”和“失败模式”
这张地图的目的不是追新,而是帮助这本书持续吸收 AI/ML 自动化科研中的稳定经验。