主题
04 - 新颖性验证
从 shortlisted idea 到 claim 级别的研究定位
目标
新颖性验证不是简单回答“这个想法有没有人做过”,而是回答:
我准备声称的每一个关键 claim,和最近工作相比,究竟新在哪里?
本章的目标是:
- 把 03-想法生成 中 shortlist 的 idea 拆成 2-5 个可检索、可比较的 claim
- 为每个 claim 找到最接近工作,而不是“看起来最方便引用的工作”
- 判断哪些部分已经被做过,哪些部分只是部分重叠,哪些部分真的可能成立为新贡献
- 产出一份可交给 05-实验设计 的定位材料,明确 baseline、风险点和必须防守的审稿意见
本章回答的问题是:
如果我要把这个 idea 写成论文,最危险的重叠在哪里?最站得住的差异化又在哪里?
完成标准
完成这一章,不等于“我搜过 Scholar 了”,而是至少要做到:
- 你有一份经人类复核的
NOVELTY_REPORT.md - 你为每个核心 claim 建立了
CLOSEST_WORK_TABLE.csv - 你知道哪些 claim 已经被做过,哪些 claim 只能缩小或重写
- 你知道最接近工作是谁,以及审稿人最可能如何质疑“这不够新”
- 你能把本章的结论平稳交给 05-实验设计
输入与标准产物
输入
建议直接使用 01-03 章产物:
| 输入 | 作用 |
|---|---|
PROBLEM_NOTE.md | 防止 novelty check 脱离原始问题边界 |
IDEA_REPORT.md | 提供 shortlist、执行顺序和最强反驳 |
IDEA_BACKLOG.csv | 回看候选项的原始假设与最小实验 |
PAPER_TABLE.csv | 提供结构化论文信息、claim 和 strongest evidence |
LITERATURE_MAP.md | 帮你定位方法簇和主线分布 |
OPEN_QUESTIONS.md | 帮你识别哪些点可能是结构性空白 |
| 最近 6-12 个月补查结果 | 防止你基于过期空白做判断 |
标准产物
本章建议至少产出 2 份材料:
| 产物 | 作用 | 后续会在哪用到 |
|---|---|---|
NOVELTY_REPORT.md | claim 级新颖性判断、整体定位和结论建议 | 05, 08, 11 |
CLOSEST_WORK_TABLE.csv | 为每个 claim 记录最接近工作、重叠点和风险 | 05, 11 |
这些 artifact 的统一命名、建议路径和生命周期状态见:附录 E
人类-智能体协作
| 阶段 | 智能体适合做什么 | 人必须负责什么 | 常见风险 |
|---|---|---|---|
| claim 拆解 | 把 idea 改写成多个可搜索 claim,补同义表达 | 判断 claim 是否真的是你准备对外声称的贡献 | 把一个模糊 idea 拆成很多“听起来都像贡献”的句子 |
| 检索扩展 | 扩 query、查候选近邻论文、整理引用网络 | 判断哪些工作真的构成威胁 | 找到相关论文,但没找到真正最近的论文 |
| 证据对比 | 抽 overlap、difference、evidence 和 risk | 决定差异化是否站得住 | 把“任务不同”误当成“贡献不同” |
| 报告起草 | 生成 CLOSEST_WORK_TABLE.csv 和 NOVELTY_REPORT.md 草稿 | 对最终定位拍板 | 让流畅表述掩盖判断错误 |
本章默认的工作方式是:
可以让智能体当侦察兵、整理器和魔鬼代言人,但“这到底够不够新”必须由人来签字。
在 AI/ML 里,什么算新颖
新颖性不只是一种形式。对 AI/ML 研究来说,下面几类都可能成立:
| 类型 | 可能成立的新颖性 | 常见前提 |
|---|---|---|
| 方法型 | 提出新的机制、训练目标、模块交互方式 | 不只是换名字或换超参数 |
| 诊断型 | 发现现有方法失效的边界、failure mode、机制解释 | 需要有系统证据,不只是个别案例 |
| 评测型 | 指出现有 benchmark 的盲点,提出更有区分力的评测 | 需要证明“旧评测误导了结论” |
| 分析型 | 澄清冲突结论、解释规模效应或数据条件 | 需要有扎实对比而不是口头推测 |
| 负结果型 | 证明一类方法在重要条件下不成立 | 负结果必须具备普遍意义 |
反过来,下面这些通常不够构成独立新颖性:
- 只是把
X应用到Y,但没有出现新的技术约束、诊断结论或评测需求 - 只是换数据集、换 random seed、换 batch size
- 只是把模型变大、训练更久,但没有新的结论或机制解释
- 只是把已有做法换个说法重新包装
工作流
Phase 0: 先回到 PROBLEM_NOTE.md,定义你要验证的“新颖性单位”
不要直接搜整个 idea。先回看原始问题边界,再写清楚:
text
Shortlisted idea:
Contribution type: method / diagnostic / benchmark / analysis
Time window: 重点看最近 12-24 个月,单独补查最近 6-12 个月
Kill condition: 如果发现 [哪类工作] 已经完整覆盖核心 claim,就放弃或重写这一步的作用是防止你边搜边改口径,最后变成“总能找到一点点不一样”。
Phase 1: 把 idea 拆成 claim list
每个 shortlisted idea 建议拆成 2-5 个 claim。每个 claim 都要能独立回答:
- 你到底在声称什么?
- 这条 claim 属于哪类贡献?
- 什么证据能支持它?
- 它最可能和哪类先验工作重叠?
示例:
text
Idea: 用 curriculum learning 加速文本 diffusion 训练
Claim 1: 在相同最终质量下,curriculum 能减少训练步数
Claim 2: 文本 diffusion 需要不同于图像任务的难度度量
Claim 3: 该方法的收益主要出现在长序列或低资源 setting每个 claim 都建议写成一个简短的 Claim Card:
markdown
## Claim C1
- Claim text:
- Contribution type:
- Why this matters:
- Evidence needed:
- Likely closest work:
- If already done, what remains?如果你无法把 idea 拆成清晰 claim,通常说明:
- idea 还太空
- 贡献边界还没定义
- 后面也很难做可信的新颖性判断
Phase 2: 对每个 claim 做多轮检索扩展
不要只搜一句原始标题。对每个 claim,至少跑 4 类 query:
| Query 维度 | 你在找什么 |
|---|---|
| 精确表达 | 看是否已有几乎同题的工作 |
| 同义/改写表达 | 防止别人只是用了不同术语 |
| 父问题表达 | 看更宽泛的问题是否已经覆盖你的 claim |
| failure / limitation / boundary 表达 | 看是否已有论文在边界条件上得过类似结论 |
示例:
text
"curriculum learning diffusion"
"easy-to-hard diffusion training"
"diffusion training data ordering"
"diffusion acceleration" curriculum OR data selection
"curriculum" "text diffusion"
"diffusion" training efficiency limitations推荐的来源顺序
- arXiv / OpenReview:最近 6-12 个月必须单独查一轮
- Google Scholar / Semantic Scholar:扩展引用网络和同义表述
- 会议官网与作者主页:补正式版本、rebuttal 讨论和版本变化
- Papers with Code / 官方 repo:确认任务名、baseline 和 benchmark 是否其实已经一致
检索时要刻意做的 4 件事
- 每个核心 claim 至少用 3+ 种表述
- 对每个最可疑的近邻论文做向前引用和向后引用
- 最近 6-12 个月单独补查一轮,不要混在旧结果里
- 检查是否有同一工作在 arXiv、OpenReview、正式会议中重复出现
工具接入建议
这一章非常适合接入 附录 D 中的检索和问答工具:
| 工具 | 更适合做什么 | 不要直接拿来做什么 |
|---|---|---|
| Open Deep Research / GPT Researcher | 扩 query、分解子问题、整理候选来源 | 直接下最终“够不够新”的结论 |
| PaperQA2 / Scholar QA | 对具体 claim 做文献问答、定位近邻证据 | 代替你核对原文中的方法和实验细节 |
| claude-scholar 风格的引用核验 | 检查你写下的 overlap / difference 是否有来源支撑 | 代替研究定位判断 |
这部分之所以强调工具边界,是因为这些流程并不是传统“先搜再读”的泛泛建议,而是直接来自自动化科研系统和 citation-grounded QA 项目的稳定经验提炼。
Phase 3: 读取最接近工作,并建立 CLOSEST_WORK_TABLE.csv
只要你准备把某篇论文写成“closest work”,就不要停留在摘要层面。
至少要回答:
- 它的核心 claim到底是什么?
- 它和你的任务、setting、数据、指标是否真的一致?
- 它的 strongest evidence 来自哪张表、哪个 setting?
- 你的差异到底是机制差异、评测差异、边界差异,还是只是包装差异?
- 作为审稿人,它最可能如何压缩你的贡献空间?
CLOSEST_WORK_TABLE.csv 最低字段
| 字段 | 说明 |
|---|---|
claim_id | 对应哪个 claim |
prior_work | 最接近工作 |
year | 年份 |
venue | 发表位置 |
overlap | 与本 claim 的重叠点 |
difference | 当前可成立的差异点 |
strongest_evidence | 近邻工作最强证据 |
risk | LOW / MEDIUM / HIGH |
confidence | 你对判断的把握 |
最低要求是和 附录 E 一致的核心字段: claim_id, prior_work, overlap, difference, risk
示例:
markdown
| claim_id | prior_work | year | venue | overlap | difference | strongest_evidence | risk | confidence |
|----------|------------|------|-------|---------|------------|--------------------|------|------------|
| C1 | Paper A | 2024 | NeurIPS | 都研究 diffusion 训练加速 | Paper A 用 pruning,不涉及 curriculum | Table 2, convergence plots | MEDIUM | HIGH |
| C2 | Paper B | 2025 | arXiv | 都讨论样本难度 | Paper B 只做图像,不含文本难度定义 | Appendix C | HIGH | MEDIUM |一个可选的 claim-level 流程图(LaTeX/TikZ)
如果你想在本章放一张“新颖性验证主链图”,可以直接使用下面的 LaTeX 代码:
使用时需要:
latex
\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}Phase 4: 做 claim 级判断,而不是一句话打分
对每个 claim,建议至少给出下面 4 类判断之一:
| 判断 | 含义 | 典型行动 |
|---|---|---|
DONE | 这条 claim 基本已被现有工作覆盖 | 放弃、缩小或改写 |
OVERLAPPED | 有明显重叠,但仍可能存在可辩护差异 | 收紧定位,避免夸大 |
FRAGILE_NOVEL | 看起来新,但很容易被质疑 | 在实验设计里专门补证据 |
CLEAR_NOVEL | 最近工作无法覆盖这条 claim | 作为主打贡献推进 |
如果你想保留一个总分,也可以,但总分必须附理由。本书更推荐保留:
- 每个 claim 的判断
- 每个 claim 的 closest work
- 每个 claim 的风险等级
- 整体 recommendation
整体 recommendation 建议
| 建议 | 典型条件 |
|---|---|
ABANDON | 核心 claim 已被覆盖,剩余差异不足以成立论文 |
REPOSITION | 主 claim 不够新,但诊断、边界或评测角度仍成立 |
PROCEED_WITH_CAUTION | 存在新意,但需要针对重叠点设计更强证据 |
PROCEED | 核心 claim 新、差异清晰、closest work 也已查清 |
Phase 5: 形成 NOVELTY_REPORT.md
这份报告不是给自己打气,而是给下一章明确输入。
最低应该包含:
- shortlist idea 的一句话定义
- claim 列表
- 每个 claim 的 closest work、overlap、difference、risk
- 整体 recommendation
- 必须引用的工作
- 必须在实验里直接回应的 strongest objection
NOVELTY_REPORT.md 模板
markdown
# Novelty Report
## Idea
- Title:
- Contribution type:
- Why this is worth checking:
## Claim-level Assessment
| Claim ID | Claim | Closest Work | Overlap | Difference | Risk | Verdict |
|----------|-------|--------------|---------|------------|------|---------|
| C1 | ... | ... | ... | ... | HIGH | OVERLAPPED |
| C2 | ... | ... | ... | ... | MEDIUM | FRAGILE_NOVEL |
## Must-Cite Prior Work
- [Paper A] — why it matters
- [Paper B] — why it matters
## Strongest Reviewer Objections
1. ...
2. ...
## Overall Recommendation
- Decision: PROCEED_WITH_CAUTION
- Main differentiator:
- Main risk:
- Claims to avoid overstating:
## Handoff to Experiment Design
- Must-run baselines:
- Must-test settings:
- Must-prove evidence:Phase 6: 把结论交给实验设计,而不是停在“看起来挺新”
如果本章完成得好,进入 05-实验设计 时,你应该已经知道:
- 该和哪几篇工作直接比较
- 哪条 claim 最值得优先验证
- 哪个重叠点最危险,必须优先补证据
- abstract 和 intro 里哪些话现在还不能说太满
换句话说,本章的出口应该是:
我不只是知道“它可能是新的”,而是知道“它要怎么被证明是新的”。
质量控制
1. 最近 6-12 个月必须单独刷新
AI/ML 方向变化快。你 3 周前得到的“空白”,可能在你真正开始实现前就已经消失。
2. 不要只搜整句话
很多重叠工作不是题目重合,而是 claim 重合。
3. “closest work” 必须配 strongest evidence
如果你说某篇工作最接近,你最好能指出:
- 它最强的实验在哪
- 你的差异到底落在哪一层
- 这个差异是不是审稿人会认可的差异
4. 不要把“任务不同”直接等同于“贡献不同”
任务、模态、规模不同,有时只是 setting 变化,不一定自动构成贡献。
5. 新颖性判断必须回到证据,而不是回到措辞
不要因为自己的表述更学术、更完整,就误以为贡献更强。
常见错误
错误 1:把整个 idea 当成一个搜索词
表现: 只搜一句标题式表达,没把 claim 拆开。
解决: 先做 claim list,再对每条 claim 单独搜索。
错误 2:找到一篇相似论文后就停止
表现: 找到“像”的工作后马上下结论,没有继续看引用网络和最近更新。
解决: 对最可疑近邻论文做向前/向后引用扩展,并单独补查最近 6-12 个月。
错误 3:把“应用 X 到 Y”当成完整贡献
表现: 论文的主要差异只是任务或模态变化。
解决: 问自己:新的技术约束、诊断结论、评测需求或机制解释到底在哪里?
错误 4:故意把最接近工作写远
表现: 为了显得新,把真正最接近的工作淡化成“相关工作”。
解决: closest work 必须写最危险的那个,而不是最舒服的那个。
错误 5:盲信工具生成的 novelty summary
表现: 把 PaperQA2、Scholar QA 或 deep research agent 的总结直接当最终结论。
解决: 把工具输出视为草稿,最终 overlap / difference 仍需回源确认。
错误 6:只有总体评分,没有 claim 级判断
表现: 最后只有一个 7/10,却不知道到底哪条 claim 真正新。
解决: 先做 claim 级 verdict,再给整体 recommendation。
检查清单
完成本章后,你应该至少拥有:
| 问题 | 状态 |
|---|---|
| 我把 shortlisted idea 拆成 2-5 个 claim 了吗? | ✅ |
| 每个核心 claim 都跑过多轮 query 了吗? | ✅ |
| 我单独补查了最近 6-12 个月的新工作吗? | ✅ |
| 我真的找到了 closest work,而不是方便引用的工作吗? | ✅ |
| 每个 claim 都有 overlap / difference / risk 吗? | ✅ |
| 我知道下一章该和谁比、该证明什么吗? | ✅ |
如果有 ❌,不要急着开始主实验。
小结
AI/ML 研究里的新颖性验证,本质上是一个claim 级定位过程:
- 从
IDEA_REPORT里拿到 shortlist - 把每个 idea 拆成可检索 claim
- 为每个 claim 做多轮扩展检索
- 建立
CLOSEST_WORK_TABLE.csv - 在
NOVELTY_REPORT.md里给出可防守的定位和 recommendation
下一步:05-实验设计 — 把 novelty risk 转成最小可行实验与 baseline 计划
引用 ARIS:本章的基础工作流来自 ARIS 的
novelty-check技能。扩展来源:这一版还吸收了 Open Deep Research、GPT Researcher、PaperQA2、Scholar QA、claude-scholar 等检索、问答和引用核验系统的可执行经验。完整来源见:附录 D