02 - 文献调研

构建领域图谱，识别结构性空白

目标

文献调研不是“读很多论文”，而是建立一个可复用的研究上下文：

构建领域全景图 — 谁做了什么，怎么做的，证据强度如何
识别结构性空白 — 哪些问题还没被解释、比较或验证
为后续章节提供输入 — 给 03-想法生成和 04-新颖性验证提供高质量材料

本章回答的问题是：

这个领域长什么样？

04-新颖性验证回答的则是：

我的 claim 和最近工作相比，究竟新在哪里？

完成标准

完成文献调研，不等于“我读了很多”。

它至少意味着你已经能回答：

这个方向的 3-5 个主要方法簇 是什么
最近 12-24 个月有哪些 关键新变化
哪些结论已经形成共识
哪些地方存在 冲突、未解释现象或评测缺口
你的项目更像是在补 方法、诊断、规模、评测 中的哪一种空白

输入与标准产物

输入

PROBLEM_NOTE.md
1-3 篇 seed papers，或 1 篇 survey + 2 篇代表作
你已有的 Zotero、Obsidian、本地 PDF、代码仓库或实验笔记

标准产物

建议至少产出这 4 份材料：

产物	作用	后续会在哪用到
`PAPER_TABLE.csv`	结构化记录论文和证据	03, 04, 11
`LITERATURE_MAP.md`	按方法簇组织领域图谱	03, 09
`CONTRADICTION_LOG.md`	记录冲突结论和可能原因	03, 07
`OPEN_QUESTIONS.md`	记录未解决问题和潜在机会	03, 04

如果项目很小，也可以先合并成一个总笔记，但不要只停留在脑中印象。

这些 artifact 的统一命名、建议路径和生命周期状态见：附录 E

人类-智能体协作

阶段	智能体适合做什么	人必须负责什么	常见风险
检索扩展	生成检索 query、扩展相关论文、做初步摘要	判断哪些论文真的相关	漏掉同义词或把弱相关论文混进来
结构整理	按主题分组、生成表格、归纳共识和分歧	检查分组是否合理	把“相关”说成“等价”
证据对齐	帮你抽取 claim、表格、引用	确认 claim 与原文一致	过度概括、误引
结论提炼	生成 open questions 和研究机会候选	判断机会是否真实重要	把“没人做过”误判成“值得做”

记住：

智能体可以放大检索和整理能力，但不能替代你对论文的责任性阅读。

两种起步方式

路径 A：你已有本地知识库

如果你已经积累了 Zotero、Obsidian、项目笔记或本地 PDF：

先从自己的批注和已读论文出发
把它们视为“第一层上下文”
外部检索的目标是补全盲区，而不是从零开始

路径 B：你从零开始

如果你刚进入一个新方向：

先找 1 篇 survey / benchmark / tutorial
再找 2-3 篇代表性论文
再扩展到 最近 10-20 篇相关工作
最后补查 最近 6 个月的 arXiv / OpenReview

不要一开始就随机扫 50 篇论文。

数据源（AI/ML 版本）

来源	为什么重要	常用入口	适用场景
已有批注与笔记	是你已经消化过的知识	Zotero, Obsidian	快速建立上下文
Seed papers / survey	提供关键词、方法簇、代表作	本地库, Scholar	从零入门
顶会与期刊论文	证据质量通常更稳定	NeurIPS, ICML, ICLR, ACL, EMNLP, CVPR 等	建 baseline 和主线理解
arXiv / OpenReview	捕捉最新进展和尚未定型的方向	arXiv, OpenReview	查最近 6-12 个月变化
引用网络	找到关键祖先工作和后续跟进	Google Scholar, Semantic Scholar	扩展边界
代码与 benchmark 入口	帮你理解实际可复现性和常见比较设置	Papers with Code, 官方 repo	识别常见实验协议
Review / rebuttal 线索	揭示论文真正薄弱点	OpenReview discussion, repo issues	找 limitations 和争议点

关键洞察：

在 AI/ML 里，论文、代码、benchmark、review 讨论经常要一起看，单看摘要很容易误判。

工作流

Phase 0: 定义调研边界

先把你要调研的问题写成 2-3 句：

text

Topic: [研究主题]
Question: [你真正关心的问题]
Boundary: [不看的内容]
Time window: [重点关注的年份]

例如：

text

Topic: long-context language modeling
Question: 在 32K+ context 下，现有方法的主要瓶颈是什么？
Boundary: 不研究纯系统优化；只看建模与评测
Time window: 2023-present

然后准备 5-8 组检索 query，至少覆盖：

标准术语
同义词或近义词
benchmark 名称
failure / limitation / scaling 相关词
更宽泛的父问题

Phase 1: 扫描已有资源或建立 seed set

如果你已有本地积累

先看：

Zotero 里的 collection、标签、高亮、批注
Obsidian 中与你主题相关的文献笔记
本地 papers/、literature/、项目仓库里的 references.bib

如果你从零开始

先建立一个 seed set：

1 篇 survey / benchmark
2-3 篇最近代表作
2-3 篇被高频引用的经典工作

这一步的目标不是读深，而是拿到：

主关键词
方法簇名字
代表性 baseline
可能的评测数据集

Phase 2: 外部扩展检索

建议按下面顺序扩展：

顶会/顶刊主线 — 最近 2 年
arXiv / OpenReview — 最近 6-12 个月
引用网络 — 向前追溯、向后追踪
代码与 benchmark 入口 — 看论文是否真的形成比较共识

查询技巧

用 5+ 种不同说法搜索同一个问题
把方法词、任务词、数据集词拆开搜索
针对 failure 和 limitation 单独搜一轮
最近 6 个月必须单独跑一轮 query

示例：

text

"long context language modeling" ICLR OR ICML OR NeurIPS
"long-context LLM" arXiv
"context length extrapolation" openreview
"long context" benchmark limitations
"needle in a haystack" language models

工具接入建议

如果你在做深度调研，可以这样用工具：

工具	更适合做什么	不要直接拿来做什么
PaSa	面向复杂学术 query 做多轮论文检索、读论文和筛参考文献	最终相关性判断
Open Deep Research / GPT Researcher	扩展 query、收集候选来源、生成初步研究报告	最终事实判断
STORM	帮你把主题拆成子问题和综述框架	直接替代正式 related work
PaperQA2	对某个 claim 做 evidence lookup	代替你亲自核对原文

详细来源说明见：附录 D

Phase 3: 初筛与阅读深度分层

不要对每篇论文都做同样深度的阅读。

标签	含义	建议处理
CORE	直接相关，可能是你未来要比较或引用的工作	深读
ADJACENT	提供方法灵感、诊断角度或评测设置	中读
BACKGROUND	只用于背景铺垫	快读
DROP	关键词相关，但与你的问题关系不大	记录后跳过

阅读深度分层

深度	读取范围	适用对象
L1	标题 + 摘要 + 结论	背景或初筛论文
L2	摘要 + 引言 + 图表 + 实验结论	相邻工作
L3	方法 + 实验 + limitations + appendix（必要时）	核心相关工作

规则：

CORE 论文至少读到 L2，关键对比对象读到 L3
如果你准备在正文中把某篇工作写成“最接近工作”，通常要读到 L3
不要只读摘要就下判断

Phase 4: Claim 级抽取

这是本章最重要的一步。

对每篇论文，不只是记“做了什么”，还要记：

字段	说明
Problem	它到底解决什么问题
Core Claim	作者最强的主张是什么
Method	关键技术点（1-2 句）
Setup	数据集、benchmark、主要比较对象
Evidence	最强证据来自哪张表/哪个实验
Limitations	作者承认的边界或弱点
Relevance	与你工作的关系
Depth	L1 / L2 / L3
Confidence	HIGH / MEDIUM / LOW

示例：

markdown

| Paper | Year | Venue | Core Claim | Setup | Strongest Evidence | Limitations | Relevance | Depth | Confidence |
|-------|------|-------|------------|-------|--------------------|-------------|-----------|-------|------------|
| Paper A | 2024 | ICLR | 在 32K context 下保持稳定性能 | LongBench + NeedleBench | Table 2, Fig 3 | 只评估 English | Closest baseline | L3 | HIGH |
| Paper B | 2025 | arXiv | 提出新位置编码解决外推问题 | 自建数据 + LongBench | Table 1 | 未和最新 baseline 比较 | Possible competitor | L2 | MEDIUM |

Confidence 怎么标

等级	典型情况
HIGH	顶会/成熟期刊；实验完整；可与其他来源互相印证
MEDIUM	arXiv / workshop；结论看起来合理，但仍需核验
LOW	只看了摘要；或只有二手材料、博客、转述

Phase 5: 综合，不是堆表

整理完论文后，要把它们变成结构化理解。

5.1 按方法簇组织领域图谱

text

Research Landscape: Long-Context Language Modeling

Approach A: Positional Extrapolation
├── Paper 1: ...
├── Paper 2: ...
└── Paper 3: ...

Approach B: Retrieval / Memory-Augmented
├── Paper 4: ...
└── Paper 5: ...

Approach C: Benchmarking and Diagnostic Evaluation
├── Paper 6: ...
└── Paper 7: ...

5.2 抽取共识

共识	支撑来源
某些 benchmark 对长上下文能力并不敏感	[1, 4, 6]
长 context 提升常伴随推理成本增加	[2, 3, 5]

5.3 记录分歧

分歧	支持方	反对方	你怀疑的原因
某种位置编码是否真的提升外推	[1, 2]	[3]	benchmark 和 context window 不一致

分歧 = 研究机会，但先别急着下结论。

5.4 记录开放问题

不要只记“还没人做过”，而要记：

问题	为什么还没解决	值不值得做
benchmark 是否高估了真实长上下文能力	现有评测任务过于单一	高
某方法是否只在某类数据上有效	论文缺少跨数据集诊断	中高

Phase 6: 输出 4 个标准产物

1. `PAPER_TABLE.csv`

最低要求：

每篇论文一行
包含 claim、evidence、limitations、relevance、depth、confidence

2. `LITERATURE_MAP.md`

建议结构：

markdown

# Literature Map: [topic]

## Method Clusters
- Cluster A: ...
- Cluster B: ...

## Consensus
- ...

## Disagreements
- ...

## Key Benchmarks / Datasets
- ...

## My Provisional Positioning
- ...

3. `CONTRADICTION_LOG.md`

建议结构：

markdown

# Contradiction Log

## Issue 1: [标题]
- Claim A:
- Supporting papers:
- Claim B:
- Opposing papers:
- Suspected reason:
- What to verify next:

4. `OPEN_QUESTIONS.md`

建议结构：

markdown

# Open Questions

## Question 1
- Why unresolved:
- Why it matters:
- Possible experiment:
- Closest prior work:

一个补充的“文献调研到新颖性验证”框架图（LaTeX/TikZ）

如果你想在本章加入一张“调研如何平滑过渡到 novelty check”的结构图，可以直接使用下面的 LaTeX 代码：

Literature review in this handbook is not paper counting but structured understanding, which then feeds claim-level novelty checking.

使用时需要：

latex

\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}

质量控制

1. 最近 6-12 个月必须单独补查

AI/ML 领域变化快。你 1 个月前做过的调研，在提交前也可能需要刷新一轮。

2. 只看摘要不够

只看摘要，很容易：

高估论文贡献
忽略限制条件
漏掉真正的比较设置

3. claim 必须能回到证据

如果你写下：

“Paper X 证明了 Y”

你最好知道：

是哪张表、哪个实验、哪个 setting
还是只是作者在摘要里的表述更强

4. 区分“热门”与“重要”

高热度不等于高相关。

对你的问题最重要的，可能是：

一篇 benchmark 论文
一篇失败分析论文
一篇指出局限的 rebuttal 讨论

5. 去重版本

同一工作可能同时出现在：

arXiv
OpenReview
正式会议版本

不要把同一篇工作算成三篇证据。

常见错误

错误 1：只看关键词匹配

表现：检索结果很多，但真正相关的很少。

解决：用问题、方法、benchmark、failure 四类 query 分开搜索。

错误 2：只读摘要就下结论

表现：“这篇和我们一样”，但其实 setup 完全不同。

解决：关键论文至少读到 L2，最接近工作读到 L3。

表现：列了很多论文，但没有方法簇、没有共识、没有分歧。

解决：先做 LITERATURE_MAP.md，再写 related work。

错误 4：忽略 code / benchmark 现实

表现：只看论文文字，不看 benchmark 和官方实现。

解决：至少检查常见比较设置、主要数据集和是否有公开代码。

错误 5：盲信智能体摘要

表现：把 agent 生成的综述直接当真。

解决：把智能体输出当作候选材料，关键 claim 必须回源核对。

错误 6：没有记录冲突

表现：一旦出现相反结论，就当作“谁对谁错”跳过去。

解决：记录到 CONTRADICTION_LOG.md，它往往就是 idea 的来源。

检查清单

完成这一章后，你应该至少拥有：

问题	状态
我知道这个方向的主要方法簇吗？	✅
我知道最接近我问题的 5-10 篇核心论文吗？	✅
我知道最近 6-12 个月有什么新变化吗？	✅
我记录了关键分歧和未解决问题吗？	✅
我有可复用的 `PAPER_TABLE` 和 `LITERATURE_MAP` 吗？	✅
我能大致说出我的工作会补哪种空白吗？	✅

如果有 ❌，继续调研。

小结

AI/ML 文献调研的目标是建立结构化研究上下文，不是堆论文数量：

先定义调研边界
用 seed papers 和本地知识库建立上下文
用多轮检索扩展到最新工作
以 claim 为单位抽取证据和限制
输出 PAPER_TABLE、LITERATURE_MAP、CONTRADICTION_LOG、OPEN_QUESTIONS

下一步：03-想法生成 — 从领域图谱到候选 idea 池

引用 ARIS：本章的基础工作流来自 ARIS 的 research-lit 技能。
扩展来源：这一版还吸收了深度研究与证据组织类项目的经验，如 PaSa、Open Deep Research、GPT Researcher、STORM、PaperQA2。完整来源见：附录 D

02 - 文献调研 ​

目标 ​

完成标准 ​

输入与标准产物 ​

输入 ​

标准产物 ​

人类-智能体协作 ​

两种起步方式 ​

路径 A：你已有本地知识库 ​

路径 B：你从零开始 ​

数据源（AI/ML 版本） ​

工作流 ​

Phase 0: 定义调研边界 ​

Phase 1: 扫描已有资源或建立 seed set ​

如果你已有本地积累 ​

如果你从零开始 ​

Phase 2: 外部扩展检索 ​

查询技巧 ​

工具接入建议 ​

Phase 3: 初筛与阅读深度分层 ​

相关性分层 ​

阅读深度分层 ​

Phase 4: Claim 级抽取 ​

Confidence 怎么标 ​

Phase 5: 综合，不是堆表 ​

5.1 按方法簇组织领域图谱 ​

5.2 抽取共识 ​

5.3 记录分歧 ​

5.4 记录开放问题 ​

Phase 6: 输出 4 个标准产物 ​

1. PAPER_TABLE.csv ​

2. LITERATURE_MAP.md ​

3. CONTRADICTION_LOG.md ​

4. OPEN_QUESTIONS.md ​

一个补充的“文献调研到新颖性验证”框架图（LaTeX/TikZ） ​

质量控制 ​

1. 最近 6-12 个月必须单独补查 ​

2. 只看摘要不够 ​

3. claim 必须能回到证据 ​

4. 区分“热门”与“重要” ​

5. 去重版本 ​

常见错误 ​

错误 1：只看关键词匹配 ​

错误 2：只读摘要就下结论 ​

错误 3：把 related work 写成列表 ​

错误 4：忽略 code / benchmark 现实 ​

错误 5：盲信智能体摘要 ​

错误 6：没有记录冲突 ​

检查清单 ​

小结 ​

02 - 文献调研

目标

完成标准

输入与标准产物

输入

标准产物

人类-智能体协作

两种起步方式

路径 A：你已有本地知识库

路径 B：你从零开始

数据源（AI/ML 版本）

工作流

Phase 0: 定义调研边界

Phase 1: 扫描已有资源或建立 seed set

如果你已有本地积累

如果你从零开始

Phase 2: 外部扩展检索

查询技巧

工具接入建议

Phase 3: 初筛与阅读深度分层

相关性分层

阅读深度分层

Phase 4: Claim 级抽取

Confidence 怎么标

Phase 5: 综合，不是堆表

5.1 按方法簇组织领域图谱

5.2 抽取共识

5.3 记录分歧

5.4 记录开放问题

Phase 6: 输出 4 个标准产物

1. `PAPER_TABLE.csv`

2. `LITERATURE_MAP.md`

3. `CONTRADICTION_LOG.md`

4. `OPEN_QUESTIONS.md`

一个补充的“文献调研到新颖性验证”框架图（LaTeX/TikZ）

质量控制

1. 最近 6-12 个月必须单独补查

2. 只看摘要不够

3. claim 必须能回到证据

4. 区分“热门”与“重要”

5. 去重版本

常见错误

错误 1：只看关键词匹配

错误 2：只读摘要就下结论

错误 3：把 related work 写成列表

错误 4：忽略 code / benchmark 现实

错误 5：盲信智能体摘要

错误 6：没有记录冲突

检查清单

小结