D - AI/ML 自动化科研来源与工具地图

从开源自动化科研项目和 agent skills 中提炼经验，也给读者提供可单独运行的工具入口

这张地图怎么用

这份附录不是“项目收藏夹”，而是一本 AI/ML 研究手册的来源索引。

使用方式：

当你准备扩写某一章时，先看哪些来源最相关
优先提炼可迁移的流程、检查项和产物
不要把某个项目的 prompt 或 API 细节直接写成“通用原则”
始终补上“哪些地方必须由人复核”

来源矩阵

来源	类型	适合补充的章节	可提炼经验	注意事项
ARIS	端到端自动科研 workflow	01-13	阶段拆分、产物契约、自动审稿循环、状态沉淀	是当前第一来源，但不应成为唯一来源
Research-Paper-Writing-Skills	写作方法论	09-12	论文结构、写作顺序、rebuttal 模板	更偏人工写作，不是自动化系统
claude-scholar	引用验证协议	02, 04, 11	引用核验、证据归因、降低误引风险	更适合做引用规范，而不是通用检索框架
The AI Scientist	自动科研系统	03, 05, 08, 11	idea→experiment→paper→review 闭环、并行试错、自动审稿	更适合代码可执行的研究任务
PaSa	学术论文检索 agent	02, 04	复杂 scholarly query 的多轮检索、读论文、筛相关参考文献	适合扩展检索广度和召回，不直接替代人工相关性判断
Open Deep Research	深度研究 agent	02, 04	多轮检索、任务分解、结构化研究报告	适合作为调研助手，不直接替代新颖性判断
GPT Researcher	自主 deep research agent	02, 04, 11	主题调研、报告生成、资料归档	输出应视为草稿，仍需人工核证
STORM	带引用的知识整理系统	02, 09, 11	主题拆分、带引用综述、写作前知识组织	更适合 pre-writing 阶段，不直接等于可投稿正文
PaperQA2	文献问答系统	02, 04, 11	基于 PDF/文献库的问答、证据定位、引用支撑	很适合做 claim cross-check
Scholar QA	文献综述与问答系统	02, 04	大规模检索、长程证据整合、学术问答	更适合补充调研广度
HypoGeniC / hypothesis-generation	假设生成系统	03, 07	从数据和观察生成候选假设、比较假设质量	适合作为想法发生器，不适合直接当结论
Anthropic Skills	通用 skill 设计仓库	全书	输入输出契约、可复用任务封装方式、skill 候选提升规则	偏通用 skill 设计，不是科研专用
AI-research-SKILLs	研究型 skills 集合	02, 03, 05, 08, 13	把研究任务拆成可重复调用的技能单元，并沉淀为可复用资产	需要筛选哪些 skill 真正稳定可迁移

可单独运行的工具项目

1. Idea 发现与假设生成

项目	适合输入	适合输出	适合本书中的位置
The AI Scientist	明确的任务边界、可运行 baseline	候选想法、实验计划、初稿	03-想法生成, 05-实验设计, 08-自动迭代循环
HypoGeniC / hypothesis-generation	观察、实验结果、现象描述	候选假设及排序	03-想法生成, 07-结果分析

2. 检索、综述与新颖性验证

项目	强项	适合输出	适合本书中的位置
PaSa	复杂学术 query 的 agentic 检索与候选论文筛选	候选论文池、相关参考文献、扩展检索结果	02-文献调研, 04-新颖性验证
Open Deep Research	多轮检索和规划	深度研究报告、问题分解	02-文献调研, 04-新颖性验证
GPT Researcher	自主研究和报告生成	主题综述、资料汇编	02-文献调研
STORM	带引用的知识组织	写作前背景综述	02-文献调研, 09-论文结构
PaperQA2	基于文献库的问答与引用定位	claim 支撑、证据片段、对比问答	04-新颖性验证, 11-写作与润色
Scholar QA	检索和长上下文学术问答	文献整合问答、背景比较	02-文献调研, 04-新颖性验证

3. 审稿、质检与写作支撑

项目	更适合做什么	不应直接替代什么
ARIS 中的 `research-review` / `auto-review-loop`	审稿模拟、问题分级、迭代记录	真实专家审稿
The AI Scientist	自动生成论文和 review 信号	最终投稿前的人类把关
PaperQA2	检查 claim 是否有文献支撑	作者对论断强度的最终判断
claude-scholar	引用核验协议	全部写作决策

4. 作为“来源”而不是“工具”的 skill 仓库

这些仓库不一定直接跑出论文，但非常适合拿来提炼“任务契约”：

仓库	适合提炼什么
Anthropic Skills	skill 的输入输出、复用边界、失败回退
AI-research-SKILLs	科研任务拆分、角色提示、执行顺序
ARIS skills	AI/ML 研究任务的阶段化技能设计

建议优先纳入正文的路线

第一优先级

02-文献调研
- 引入 PaSa、Open Deep Research、GPT Researcher、STORM、PaperQA2 的工作方式
- 把“单篇读论文”扩展成“多轮检索 + 归纳 + 引用归因”
03-想法生成
- 引入 The AI Scientist、HypoGeniC
- 把“头脑风暴”扩展成“候选想法池 + 排名 + 淘汰记录”
04-新颖性验证
- 引入 PaperQA2、Scholar QA
- 把“搜索过没有”扩展成“claim 级别的新颖性对比”

第二优先级

08-自动迭代循环
- 对照 ARIS 和 The AI Scientist
- 增强“反馈解析、修复决策、循环停止条件”
11-写作与润色
- 引入 citation-grounded QA 和作者化审校
- 强化“作者责任、引用核验、claim-evidence 对齐”

第三优先级

附录 A
- 增加这些项目的本地接入方式和适用边界
13-复盘与资产化
- 把项目沉淀成 skill、模板、失败案例和标准产物

纳入这些来源时的原则

提炼流程，不照抄 prompt
提炼稳定产物，不绑定特定模型
明确 agent 能做什么，也明确人必须复核什么
优先写“适用边界”和“失败模式”

这张地图的目的不是追新，而是帮助这本书持续吸收 AI/ML 自动化科研中的稳定经验。