主题
02 - 文献调研
构建领域图谱,识别结构性空白
目标
文献调研不是“读很多论文”,而是建立一个可复用的研究上下文:
本章回答的问题是:
这个领域长什么样?
04-新颖性验证 回答的则是:
我的 claim 和最近工作相比,究竟新在哪里?
完成标准
完成文献调研,不等于“我读了很多”。
它至少意味着你已经能回答:
- 这个方向的 3-5 个主要方法簇 是什么
- 最近 12-24 个月有哪些 关键新变化
- 哪些结论已经形成 共识
- 哪些地方存在 冲突、未解释现象或评测缺口
- 你的项目更像是在补 方法、诊断、规模、评测 中的哪一种空白
输入与标准产物
输入
PROBLEM_NOTE.md- 1-3 篇 seed papers,或 1 篇 survey + 2 篇代表作
- 你已有的 Zotero、Obsidian、本地 PDF、代码仓库或实验笔记
标准产物
建议至少产出这 4 份材料:
| 产物 | 作用 | 后续会在哪用到 |
|---|---|---|
PAPER_TABLE.csv | 结构化记录论文和证据 | 03, 04, 11 |
LITERATURE_MAP.md | 按方法簇组织领域图谱 | 03, 09 |
CONTRADICTION_LOG.md | 记录冲突结论和可能原因 | 03, 07 |
OPEN_QUESTIONS.md | 记录未解决问题和潜在机会 | 03, 04 |
如果项目很小,也可以先合并成一个总笔记,但不要只停留在脑中印象。
这些 artifact 的统一命名、建议路径和生命周期状态见:附录 E
人类-智能体协作
| 阶段 | 智能体适合做什么 | 人必须负责什么 | 常见风险 |
|---|---|---|---|
| 检索扩展 | 生成检索 query、扩展相关论文、做初步摘要 | 判断哪些论文真的相关 | 漏掉同义词或把弱相关论文混进来 |
| 结构整理 | 按主题分组、生成表格、归纳共识和分歧 | 检查分组是否合理 | 把“相关”说成“等价” |
| 证据对齐 | 帮你抽取 claim、表格、引用 | 确认 claim 与原文一致 | 过度概括、误引 |
| 结论提炼 | 生成 open questions 和研究机会候选 | 判断机会是否真实重要 | 把“没人做过”误判成“值得做” |
记住:
智能体可以放大检索和整理能力,但不能替代你对论文的责任性阅读。
两种起步方式
路径 A:你已有本地知识库
如果你已经积累了 Zotero、Obsidian、项目笔记或本地 PDF:
- 先从自己的批注和已读论文出发
- 把它们视为“第一层上下文”
- 外部检索的目标是补全盲区,而不是从零开始
路径 B:你从零开始
如果你刚进入一个新方向:
- 先找 1 篇 survey / benchmark / tutorial
- 再找 2-3 篇代表性论文
- 再扩展到 最近 10-20 篇相关工作
- 最后补查 最近 6 个月的 arXiv / OpenReview
不要一开始就随机扫 50 篇论文。
数据源(AI/ML 版本)
| 来源 | 为什么重要 | 常用入口 | 适用场景 |
|---|---|---|---|
| 已有批注与笔记 | 是你已经消化过的知识 | Zotero, Obsidian | 快速建立上下文 |
| Seed papers / survey | 提供关键词、方法簇、代表作 | 本地库, Scholar | 从零入门 |
| 顶会与期刊论文 | 证据质量通常更稳定 | NeurIPS, ICML, ICLR, ACL, EMNLP, CVPR 等 | 建 baseline 和主线理解 |
| arXiv / OpenReview | 捕捉最新进展和尚未定型的方向 | arXiv, OpenReview | 查最近 6-12 个月变化 |
| 引用网络 | 找到关键祖先工作和后续跟进 | Google Scholar, Semantic Scholar | 扩展边界 |
| 代码与 benchmark 入口 | 帮你理解实际可复现性和常见比较设置 | Papers with Code, 官方 repo | 识别常见实验协议 |
| Review / rebuttal 线索 | 揭示论文真正薄弱点 | OpenReview discussion, repo issues | 找 limitations 和争议点 |
关键洞察:
在 AI/ML 里,论文、代码、benchmark、review 讨论经常要一起看,单看摘要很容易误判。
工作流
Phase 0: 定义调研边界
先把你要调研的问题写成 2-3 句:
text
Topic: [研究主题]
Question: [你真正关心的问题]
Boundary: [不看的内容]
Time window: [重点关注的年份]例如:
text
Topic: long-context language modeling
Question: 在 32K+ context 下,现有方法的主要瓶颈是什么?
Boundary: 不研究纯系统优化;只看建模与评测
Time window: 2023-present然后准备 5-8 组检索 query,至少覆盖:
- 标准术语
- 同义词或近义词
- benchmark 名称
- failure / limitation / scaling 相关词
- 更宽泛的父问题
Phase 1: 扫描已有资源或建立 seed set
如果你已有本地积累
先看:
- Zotero 里的 collection、标签、高亮、批注
- Obsidian 中与你主题相关的文献笔记
- 本地
papers/、literature/、项目仓库里的references.bib
如果你从零开始
先建立一个 seed set:
- 1 篇 survey / benchmark
- 2-3 篇最近代表作
- 2-3 篇被高频引用的经典工作
这一步的目标不是读深,而是拿到:
- 主关键词
- 方法簇名字
- 代表性 baseline
- 可能的评测数据集
Phase 2: 外部扩展检索
建议按下面顺序扩展:
- 顶会/顶刊主线 — 最近 2 年
- arXiv / OpenReview — 最近 6-12 个月
- 引用网络 — 向前追溯、向后追踪
- 代码与 benchmark 入口 — 看论文是否真的形成比较共识
查询技巧
- 用 5+ 种不同说法搜索同一个问题
- 把方法词、任务词、数据集词拆开搜索
- 针对 failure 和 limitation 单独搜一轮
- 最近 6 个月必须单独跑一轮 query
示例:
text
"long context language modeling" ICLR OR ICML OR NeurIPS
"long-context LLM" arXiv
"context length extrapolation" openreview
"long context" benchmark limitations
"needle in a haystack" language models工具接入建议
如果你在做深度调研,可以这样用工具:
| 工具 | 更适合做什么 | 不要直接拿来做什么 |
|---|---|---|
| PaSa | 面向复杂学术 query 做多轮论文检索、读论文和筛参考文献 | 最终相关性判断 |
| Open Deep Research / GPT Researcher | 扩展 query、收集候选来源、生成初步研究报告 | 最终事实判断 |
| STORM | 帮你把主题拆成子问题和综述框架 | 直接替代正式 related work |
| PaperQA2 | 对某个 claim 做 evidence lookup | 代替你亲自核对原文 |
详细来源说明见:附录 D
Phase 3: 初筛与阅读深度分层
不要对每篇论文都做同样深度的阅读。
相关性分层
| 标签 | 含义 | 建议处理 |
|---|---|---|
| CORE | 直接相关,可能是你未来要比较或引用的工作 | 深读 |
| ADJACENT | 提供方法灵感、诊断角度或评测设置 | 中读 |
| BACKGROUND | 只用于背景铺垫 | 快读 |
| DROP | 关键词相关,但与你的问题关系不大 | 记录后跳过 |
阅读深度分层
| 深度 | 读取范围 | 适用对象 |
|---|---|---|
| L1 | 标题 + 摘要 + 结论 | 背景或初筛论文 |
| L2 | 摘要 + 引言 + 图表 + 实验结论 | 相邻工作 |
| L3 | 方法 + 实验 + limitations + appendix(必要时) | 核心相关工作 |
规则:
- CORE 论文至少读到 L2,关键对比对象读到 L3
- 如果你准备在正文中把某篇工作写成“最接近工作”,通常要读到 L3
- 不要只读摘要就下判断
Phase 4: Claim 级抽取
这是本章最重要的一步。
对每篇论文,不只是记“做了什么”,还要记:
| 字段 | 说明 |
|---|---|
| Problem | 它到底解决什么问题 |
| Core Claim | 作者最强的主张是什么 |
| Method | 关键技术点(1-2 句) |
| Setup | 数据集、benchmark、主要比较对象 |
| Evidence | 最强证据来自哪张表/哪个实验 |
| Limitations | 作者承认的边界或弱点 |
| Relevance | 与你工作的关系 |
| Depth | L1 / L2 / L3 |
| Confidence | HIGH / MEDIUM / LOW |
示例:
markdown
| Paper | Year | Venue | Core Claim | Setup | Strongest Evidence | Limitations | Relevance | Depth | Confidence |
|-------|------|-------|------------|-------|--------------------|-------------|-----------|-------|------------|
| Paper A | 2024 | ICLR | 在 32K context 下保持稳定性能 | LongBench + NeedleBench | Table 2, Fig 3 | 只评估 English | Closest baseline | L3 | HIGH |
| Paper B | 2025 | arXiv | 提出新位置编码解决外推问题 | 自建数据 + LongBench | Table 1 | 未和最新 baseline 比较 | Possible competitor | L2 | MEDIUM |Confidence 怎么标
| 等级 | 典型情况 |
|---|---|
| HIGH | 顶会/成熟期刊;实验完整;可与其他来源互相印证 |
| MEDIUM | arXiv / workshop;结论看起来合理,但仍需核验 |
| LOW | 只看了摘要;或只有二手材料、博客、转述 |
Phase 5: 综合,不是堆表
整理完论文后,要把它们变成结构化理解。
5.1 按方法簇组织领域图谱
text
Research Landscape: Long-Context Language Modeling
Approach A: Positional Extrapolation
├── Paper 1: ...
├── Paper 2: ...
└── Paper 3: ...
Approach B: Retrieval / Memory-Augmented
├── Paper 4: ...
└── Paper 5: ...
Approach C: Benchmarking and Diagnostic Evaluation
├── Paper 6: ...
└── Paper 7: ...5.2 抽取共识
| 共识 | 支撑来源 |
|---|---|
| 某些 benchmark 对长上下文能力并不敏感 | [1, 4, 6] |
| 长 context 提升常伴随推理成本增加 | [2, 3, 5] |
5.3 记录分歧
| 分歧 | 支持方 | 反对方 | 你怀疑的原因 |
|---|---|---|---|
| 某种位置编码是否真的提升外推 | [1, 2] | [3] | benchmark 和 context window 不一致 |
分歧 = 研究机会,但先别急着下结论。
5.4 记录开放问题
不要只记“还没人做过”,而要记:
| 问题 | 为什么还没解决 | 值不值得做 |
|---|---|---|
| benchmark 是否高估了真实长上下文能力 | 现有评测任务过于单一 | 高 |
| 某方法是否只在某类数据上有效 | 论文缺少跨数据集诊断 | 中高 |
Phase 6: 输出 4 个标准产物
1. PAPER_TABLE.csv
最低要求:
- 每篇论文一行
- 包含 claim、evidence、limitations、relevance、depth、confidence
2. LITERATURE_MAP.md
建议结构:
markdown
# Literature Map: [topic]
## Method Clusters
- Cluster A: ...
- Cluster B: ...
## Consensus
- ...
## Disagreements
- ...
## Key Benchmarks / Datasets
- ...
## My Provisional Positioning
- ...3. CONTRADICTION_LOG.md
建议结构:
markdown
# Contradiction Log
## Issue 1: [标题]
- Claim A:
- Supporting papers:
- Claim B:
- Opposing papers:
- Suspected reason:
- What to verify next:4. OPEN_QUESTIONS.md
建议结构:
markdown
# Open Questions
## Question 1
- Why unresolved:
- Why it matters:
- Possible experiment:
- Closest prior work:一个补充的“文献调研到新颖性验证”框架图(LaTeX/TikZ)
如果你想在本章加入一张“调研如何平滑过渡到 novelty check”的结构图,可以直接使用下面的 LaTeX 代码:
使用时需要:
latex
\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}质量控制
1. 最近 6-12 个月必须单独补查
AI/ML 领域变化快。你 1 个月前做过的调研,在提交前也可能需要刷新一轮。
2. 只看摘要不够
只看摘要,很容易:
- 高估论文贡献
- 忽略限制条件
- 漏掉真正的比较设置
3. claim 必须能回到证据
如果你写下:
“Paper X 证明了 Y”
你最好知道:
- 是哪张表、哪个实验、哪个 setting
- 还是只是作者在摘要里的表述更强
4. 区分“热门”与“重要”
高热度不等于高相关。
对你的问题最重要的,可能是:
- 一篇 benchmark 论文
- 一篇失败分析论文
- 一篇指出局限的 rebuttal 讨论
5. 去重版本
同一工作可能同时出现在:
- arXiv
- OpenReview
- 正式会议版本
不要把同一篇工作算成三篇证据。
常见错误
错误 1:只看关键词匹配
表现:检索结果很多,但真正相关的很少。
解决:用问题、方法、benchmark、failure 四类 query 分开搜索。
错误 2:只读摘要就下结论
表现:“这篇和我们一样”,但其实 setup 完全不同。
解决:关键论文至少读到 L2,最接近工作读到 L3。
错误 3:把 related work 写成列表
表现:列了很多论文,但没有方法簇、没有共识、没有分歧。
解决:先做 LITERATURE_MAP.md,再写 related work。
错误 4:忽略 code / benchmark 现实
表现:只看论文文字,不看 benchmark 和官方实现。
解决:至少检查常见比较设置、主要数据集和是否有公开代码。
错误 5:盲信智能体摘要
表现:把 agent 生成的综述直接当真。
解决:把智能体输出当作候选材料,关键 claim 必须回源核对。
错误 6:没有记录冲突
表现:一旦出现相反结论,就当作“谁对谁错”跳过去。
解决:记录到 CONTRADICTION_LOG.md,它往往就是 idea 的来源。
检查清单
完成这一章后,你应该至少拥有:
| 问题 | 状态 |
|---|---|
| 我知道这个方向的主要方法簇吗? | ✅ |
| 我知道最接近我问题的 5-10 篇核心论文吗? | ✅ |
| 我知道最近 6-12 个月有什么新变化吗? | ✅ |
| 我记录了关键分歧和未解决问题吗? | ✅ |
我有可复用的 PAPER_TABLE 和 LITERATURE_MAP 吗? | ✅ |
| 我能大致说出我的工作会补哪种空白吗? | ✅ |
如果有 ❌,继续调研。
小结
AI/ML 文献调研的目标是建立结构化研究上下文,不是堆论文数量:
- 先定义调研边界
- 用 seed papers 和本地知识库建立上下文
- 用多轮检索扩展到最新工作
- 以 claim 为单位抽取证据和限制
- 输出
PAPER_TABLE、LITERATURE_MAP、CONTRADICTION_LOG、OPEN_QUESTIONS
下一步:03-想法生成 — 从领域图谱到候选 idea 池
引用 ARIS:本章的基础工作流来自 ARIS 的
research-lit技能。扩展来源:这一版还吸收了深度研究与证据组织类项目的经验,如 PaSa、Open Deep Research、GPT Researcher、STORM、PaperQA2。完整来源见:附录 D