Skip to content

02 - 文献调研

构建领域图谱,识别结构性空白

目标

文献调研不是“读很多论文”,而是建立一个可复用的研究上下文

  1. 构建领域全景图 — 谁做了什么,怎么做的,证据强度如何
  2. 识别结构性空白 — 哪些问题还没被解释、比较或验证
  3. 为后续章节提供输入 — 给 03-想法生成04-新颖性验证 提供高质量材料

本章回答的问题是:

这个领域长什么样?

04-新颖性验证 回答的则是:

我的 claim 和最近工作相比,究竟新在哪里?

完成标准

完成文献调研,不等于“我读了很多”。

它至少意味着你已经能回答:

  • 这个方向的 3-5 个主要方法簇 是什么
  • 最近 12-24 个月有哪些 关键新变化
  • 哪些结论已经形成 共识
  • 哪些地方存在 冲突、未解释现象或评测缺口
  • 你的项目更像是在补 方法、诊断、规模、评测 中的哪一种空白

输入与标准产物

输入

  • PROBLEM_NOTE.md
  • 1-3 篇 seed papers,或 1 篇 survey + 2 篇代表作
  • 你已有的 Zotero、Obsidian、本地 PDF、代码仓库或实验笔记

标准产物

建议至少产出这 4 份材料:

产物作用后续会在哪用到
PAPER_TABLE.csv结构化记录论文和证据03, 04, 11
LITERATURE_MAP.md按方法簇组织领域图谱03, 09
CONTRADICTION_LOG.md记录冲突结论和可能原因03, 07
OPEN_QUESTIONS.md记录未解决问题和潜在机会03, 04

如果项目很小,也可以先合并成一个总笔记,但不要只停留在脑中印象

这些 artifact 的统一命名、建议路径和生命周期状态见:附录 E

人类-智能体协作

阶段智能体适合做什么人必须负责什么常见风险
检索扩展生成检索 query、扩展相关论文、做初步摘要判断哪些论文真的相关漏掉同义词或把弱相关论文混进来
结构整理按主题分组、生成表格、归纳共识和分歧检查分组是否合理把“相关”说成“等价”
证据对齐帮你抽取 claim、表格、引用确认 claim 与原文一致过度概括、误引
结论提炼生成 open questions 和研究机会候选判断机会是否真实重要把“没人做过”误判成“值得做”

记住:

智能体可以放大检索和整理能力,但不能替代你对论文的责任性阅读。

两种起步方式

路径 A:你已有本地知识库

如果你已经积累了 Zotero、Obsidian、项目笔记或本地 PDF:

  • 先从自己的批注和已读论文出发
  • 把它们视为“第一层上下文”
  • 外部检索的目标是补全盲区,而不是从零开始

路径 B:你从零开始

如果你刚进入一个新方向:

  1. 先找 1 篇 survey / benchmark / tutorial
  2. 再找 2-3 篇代表性论文
  3. 再扩展到 最近 10-20 篇相关工作
  4. 最后补查 最近 6 个月的 arXiv / OpenReview

不要一开始就随机扫 50 篇论文。

数据源(AI/ML 版本)

来源为什么重要常用入口适用场景
已有批注与笔记是你已经消化过的知识Zotero, Obsidian快速建立上下文
Seed papers / survey提供关键词、方法簇、代表作本地库, Scholar从零入门
顶会与期刊论文证据质量通常更稳定NeurIPS, ICML, ICLR, ACL, EMNLP, CVPR 等建 baseline 和主线理解
arXiv / OpenReview捕捉最新进展和尚未定型的方向arXiv, OpenReview查最近 6-12 个月变化
引用网络找到关键祖先工作和后续跟进Google Scholar, Semantic Scholar扩展边界
代码与 benchmark 入口帮你理解实际可复现性和常见比较设置Papers with Code, 官方 repo识别常见实验协议
Review / rebuttal 线索揭示论文真正薄弱点OpenReview discussion, repo issues找 limitations 和争议点

关键洞察

在 AI/ML 里,论文、代码、benchmark、review 讨论经常要一起看,单看摘要很容易误判。

工作流

Phase 0: 定义调研边界

先把你要调研的问题写成 2-3 句:

text
Topic: [研究主题]
Question: [你真正关心的问题]
Boundary: [不看的内容]
Time window: [重点关注的年份]

例如:

text
Topic: long-context language modeling
Question: 在 32K+ context 下,现有方法的主要瓶颈是什么?
Boundary: 不研究纯系统优化;只看建模与评测
Time window: 2023-present

然后准备 5-8 组检索 query,至少覆盖:

  • 标准术语
  • 同义词或近义词
  • benchmark 名称
  • failure / limitation / scaling 相关词
  • 更宽泛的父问题

Phase 1: 扫描已有资源或建立 seed set

如果你已有本地积累

先看:

  • Zotero 里的 collection、标签、高亮、批注
  • Obsidian 中与你主题相关的文献笔记
  • 本地 papers/literature/、项目仓库里的 references.bib

如果你从零开始

先建立一个 seed set:

  • 1 篇 survey / benchmark
  • 2-3 篇最近代表作
  • 2-3 篇被高频引用的经典工作

这一步的目标不是读深,而是拿到:

  • 主关键词
  • 方法簇名字
  • 代表性 baseline
  • 可能的评测数据集

Phase 2: 外部扩展检索

建议按下面顺序扩展:

  1. 顶会/顶刊主线 — 最近 2 年
  2. arXiv / OpenReview — 最近 6-12 个月
  3. 引用网络 — 向前追溯、向后追踪
  4. 代码与 benchmark 入口 — 看论文是否真的形成比较共识

查询技巧

  • 用 5+ 种不同说法搜索同一个问题
  • 把方法词、任务词、数据集词拆开搜索
  • 针对 failure 和 limitation 单独搜一轮
  • 最近 6 个月必须单独跑一轮 query

示例:

text
"long context language modeling" ICLR OR ICML OR NeurIPS
"long-context LLM" arXiv
"context length extrapolation" openreview
"long context" benchmark limitations
"needle in a haystack" language models

工具接入建议

如果你在做深度调研,可以这样用工具:

工具更适合做什么不要直接拿来做什么
PaSa面向复杂学术 query 做多轮论文检索、读论文和筛参考文献最终相关性判断
Open Deep Research / GPT Researcher扩展 query、收集候选来源、生成初步研究报告最终事实判断
STORM帮你把主题拆成子问题和综述框架直接替代正式 related work
PaperQA2对某个 claim 做 evidence lookup代替你亲自核对原文

详细来源说明见:附录 D

Phase 3: 初筛与阅读深度分层

不要对每篇论文都做同样深度的阅读。

相关性分层

标签含义建议处理
CORE直接相关,可能是你未来要比较或引用的工作深读
ADJACENT提供方法灵感、诊断角度或评测设置中读
BACKGROUND只用于背景铺垫快读
DROP关键词相关,但与你的问题关系不大记录后跳过

阅读深度分层

深度读取范围适用对象
L1标题 + 摘要 + 结论背景或初筛论文
L2摘要 + 引言 + 图表 + 实验结论相邻工作
L3方法 + 实验 + limitations + appendix(必要时)核心相关工作

规则

  • CORE 论文至少读到 L2,关键对比对象读到 L3
  • 如果你准备在正文中把某篇工作写成“最接近工作”,通常要读到 L3
  • 不要只读摘要就下判断

Phase 4: Claim 级抽取

这是本章最重要的一步。

对每篇论文,不只是记“做了什么”,还要记:

字段说明
Problem它到底解决什么问题
Core Claim作者最强的主张是什么
Method关键技术点(1-2 句)
Setup数据集、benchmark、主要比较对象
Evidence最强证据来自哪张表/哪个实验
Limitations作者承认的边界或弱点
Relevance与你工作的关系
DepthL1 / L2 / L3
ConfidenceHIGH / MEDIUM / LOW

示例:

markdown
| Paper | Year | Venue | Core Claim | Setup | Strongest Evidence | Limitations | Relevance | Depth | Confidence |
|-------|------|-------|------------|-------|--------------------|-------------|-----------|-------|------------|
| Paper A | 2024 | ICLR | 在 32K context 下保持稳定性能 | LongBench + NeedleBench | Table 2, Fig 3 | 只评估 English | Closest baseline | L3 | HIGH |
| Paper B | 2025 | arXiv | 提出新位置编码解决外推问题 | 自建数据 + LongBench | Table 1 | 未和最新 baseline 比较 | Possible competitor | L2 | MEDIUM |

Confidence 怎么标

等级典型情况
HIGH顶会/成熟期刊;实验完整;可与其他来源互相印证
MEDIUMarXiv / workshop;结论看起来合理,但仍需核验
LOW只看了摘要;或只有二手材料、博客、转述

Phase 5: 综合,不是堆表

整理完论文后,要把它们变成结构化理解。

5.1 按方法簇组织领域图谱

text
Research Landscape: Long-Context Language Modeling

Approach A: Positional Extrapolation
├── Paper 1: ...
├── Paper 2: ...
└── Paper 3: ...

Approach B: Retrieval / Memory-Augmented
├── Paper 4: ...
└── Paper 5: ...

Approach C: Benchmarking and Diagnostic Evaluation
├── Paper 6: ...
└── Paper 7: ...

5.2 抽取共识

共识支撑来源
某些 benchmark 对长上下文能力并不敏感[1, 4, 6]
长 context 提升常伴随推理成本增加[2, 3, 5]

5.3 记录分歧

分歧支持方反对方你怀疑的原因
某种位置编码是否真的提升外推[1, 2][3]benchmark 和 context window 不一致

分歧 = 研究机会,但先别急着下结论。

5.4 记录开放问题

不要只记“还没人做过”,而要记:

问题为什么还没解决值不值得做
benchmark 是否高估了真实长上下文能力现有评测任务过于单一
某方法是否只在某类数据上有效论文缺少跨数据集诊断中高

Phase 6: 输出 4 个标准产物

1. PAPER_TABLE.csv

最低要求:

  • 每篇论文一行
  • 包含 claim、evidence、limitations、relevance、depth、confidence

2. LITERATURE_MAP.md

建议结构:

markdown
# Literature Map: [topic]

## Method Clusters
- Cluster A: ...
- Cluster B: ...

## Consensus
- ...

## Disagreements
- ...

## Key Benchmarks / Datasets
- ...

## My Provisional Positioning
- ...

3. CONTRADICTION_LOG.md

建议结构:

markdown
# Contradiction Log

## Issue 1: [标题]
- Claim A:
- Supporting papers:
- Claim B:
- Opposing papers:
- Suspected reason:
- What to verify next:

4. OPEN_QUESTIONS.md

建议结构:

markdown
# Open Questions

## Question 1
- Why unresolved:
- Why it matters:
- Possible experiment:
- Closest prior work:

一个补充的“文献调研到新颖性验证”框架图(LaTeX/TikZ)

如果你想在本章加入一张“调研如何平滑过渡到 novelty check”的结构图,可以直接使用下面的 LaTeX 代码:

Literature review in this handbook is not paper counting but structured understanding, which then feeds claim-level novelty checking.
Literature review in this handbook is not paper counting but structured understanding, which then feeds claim-level novelty checking.

使用时需要:

latex
\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}

质量控制

1. 最近 6-12 个月必须单独补查

AI/ML 领域变化快。你 1 个月前做过的调研,在提交前也可能需要刷新一轮。

2. 只看摘要不够

只看摘要,很容易:

  • 高估论文贡献
  • 忽略限制条件
  • 漏掉真正的比较设置

3. claim 必须能回到证据

如果你写下:

“Paper X 证明了 Y”

你最好知道:

  • 是哪张表、哪个实验、哪个 setting
  • 还是只是作者在摘要里的表述更强

4. 区分“热门”与“重要”

高热度不等于高相关。

对你的问题最重要的,可能是:

  • 一篇 benchmark 论文
  • 一篇失败分析论文
  • 一篇指出局限的 rebuttal 讨论

5. 去重版本

同一工作可能同时出现在:

  • arXiv
  • OpenReview
  • 正式会议版本

不要把同一篇工作算成三篇证据。

常见错误

错误 1:只看关键词匹配

表现:检索结果很多,但真正相关的很少。

解决:用问题、方法、benchmark、failure 四类 query 分开搜索。

错误 2:只读摘要就下结论

表现:“这篇和我们一样”,但其实 setup 完全不同。

解决:关键论文至少读到 L2,最接近工作读到 L3。

表现:列了很多论文,但没有方法簇、没有共识、没有分歧。

解决:先做 LITERATURE_MAP.md,再写 related work。

错误 4:忽略 code / benchmark 现实

表现:只看论文文字,不看 benchmark 和官方实现。

解决:至少检查常见比较设置、主要数据集和是否有公开代码。

错误 5:盲信智能体摘要

表现:把 agent 生成的综述直接当真。

解决:把智能体输出当作候选材料,关键 claim 必须回源核对。

错误 6:没有记录冲突

表现:一旦出现相反结论,就当作“谁对谁错”跳过去。

解决:记录到 CONTRADICTION_LOG.md,它往往就是 idea 的来源。

检查清单

完成这一章后,你应该至少拥有:

问题状态
我知道这个方向的主要方法簇吗?
我知道最接近我问题的 5-10 篇核心论文吗?
我知道最近 6-12 个月有什么新变化吗?
我记录了关键分歧和未解决问题吗?
我有可复用的 PAPER_TABLELITERATURE_MAP 吗?
我能大致说出我的工作会补哪种空白吗?

如果有 ❌,继续调研。

小结

AI/ML 文献调研的目标是建立结构化研究上下文,不是堆论文数量:

  1. 先定义调研边界
  2. 用 seed papers 和本地知识库建立上下文
  3. 用多轮检索扩展到最新工作
  4. 以 claim 为单位抽取证据和限制
  5. 输出 PAPER_TABLELITERATURE_MAPCONTRADICTION_LOGOPEN_QUESTIONS

下一步:03-想法生成 — 从领域图谱到候选 idea 池


引用 ARIS:本章的基础工作流来自 ARIS 的 research-lit 技能。

扩展来源:这一版还吸收了深度研究与证据组织类项目的经验,如 PaSa、Open Deep Research、GPT Researcher、STORM、PaperQA2。完整来源见:附录 D