04 - 新颖性验证

从 shortlisted idea 到 claim 级别的研究定位

目标

新颖性验证不是简单回答“这个想法有没有人做过”，而是回答：

我准备声称的每一个关键 claim，和最近工作相比，究竟新在哪里？

本章的目标是：

把 03-想法生成中 shortlist 的 idea 拆成 2-5 个可检索、可比较的 claim
为每个 claim 找到最接近工作，而不是“看起来最方便引用的工作”
判断哪些部分已经被做过，哪些部分只是部分重叠，哪些部分真的可能成立为新贡献
产出一份可交给 05-实验设计的定位材料，明确 baseline、风险点和必须防守的审稿意见

本章回答的问题是：

如果我要把这个 idea 写成论文，最危险的重叠在哪里？最站得住的差异化又在哪里？

完成标准

完成这一章，不等于“我搜过 Scholar 了”，而是至少要做到：

你有一份经人类复核的 NOVELTY_REPORT.md
你为每个核心 claim 建立了 CLOSEST_WORK_TABLE.csv
你知道哪些 claim 已经被做过，哪些 claim 只能缩小或重写
你知道最接近工作是谁，以及审稿人最可能如何质疑“这不够新”
你能把本章的结论平稳交给 05-实验设计

输入与标准产物

输入

建议直接使用 01-03 章产物：

输入	作用
`PROBLEM_NOTE.md`	防止 novelty check 脱离原始问题边界
`IDEA_REPORT.md`	提供 shortlist、执行顺序和最强反驳
`IDEA_BACKLOG.csv`	回看候选项的原始假设与最小实验
`PAPER_TABLE.csv`	提供结构化论文信息、claim 和 strongest evidence
`LITERATURE_MAP.md`	帮你定位方法簇和主线分布
`OPEN_QUESTIONS.md`	帮你识别哪些点可能是结构性空白
最近 6-12 个月补查结果	防止你基于过期空白做判断

标准产物

本章建议至少产出 2 份材料：

产物	作用	后续会在哪用到
`NOVELTY_REPORT.md`	claim 级新颖性判断、整体定位和结论建议	05, 08, 11
`CLOSEST_WORK_TABLE.csv`	为每个 claim 记录最接近工作、重叠点和风险	05, 11

这些 artifact 的统一命名、建议路径和生命周期状态见：附录 E

人类-智能体协作

阶段	智能体适合做什么	人必须负责什么	常见风险
claim 拆解	把 idea 改写成多个可搜索 claim，补同义表达	判断 claim 是否真的是你准备对外声称的贡献	把一个模糊 idea 拆成很多“听起来都像贡献”的句子
检索扩展	扩 query、查候选近邻论文、整理引用网络	判断哪些工作真的构成威胁	找到相关论文，但没找到真正最近的论文
证据对比	抽 overlap、difference、evidence 和 risk	决定差异化是否站得住	把“任务不同”误当成“贡献不同”
报告起草	生成 `CLOSEST_WORK_TABLE.csv` 和 `NOVELTY_REPORT.md` 草稿	对最终定位拍板	让流畅表述掩盖判断错误

本章默认的工作方式是：

可以让智能体当侦察兵、整理器和魔鬼代言人，但“这到底够不够新”必须由人来签字。

在 AI/ML 里，什么算新颖

新颖性不只是一种形式。对 AI/ML 研究来说，下面几类都可能成立：

类型	可能成立的新颖性	常见前提
方法型	提出新的机制、训练目标、模块交互方式	不只是换名字或换超参数
诊断型	发现现有方法失效的边界、failure mode、机制解释	需要有系统证据，不只是个别案例
评测型	指出现有 benchmark 的盲点，提出更有区分力的评测	需要证明“旧评测误导了结论”
分析型	澄清冲突结论、解释规模效应或数据条件	需要有扎实对比而不是口头推测
负结果型	证明一类方法在重要条件下不成立	负结果必须具备普遍意义

反过来，下面这些通常不够构成独立新颖性：

只是把 X 应用到 Y，但没有出现新的技术约束、诊断结论或评测需求
只是换数据集、换 random seed、换 batch size
只是把模型变大、训练更久，但没有新的结论或机制解释
只是把已有做法换个说法重新包装

工作流

Phase 0: 先回到 `PROBLEM_NOTE.md`，定义你要验证的“新颖性单位”

不要直接搜整个 idea。先回看原始问题边界，再写清楚：

text

Shortlisted idea:
Contribution type: method / diagnostic / benchmark / analysis
Time window: 重点看最近 12-24 个月，单独补查最近 6-12 个月
Kill condition: 如果发现 [哪类工作] 已经完整覆盖核心 claim，就放弃或重写

这一步的作用是防止你边搜边改口径，最后变成“总能找到一点点不一样”。

Phase 1: 把 idea 拆成 claim list

每个 shortlisted idea 建议拆成 2-5 个 claim。每个 claim 都要能独立回答：

你到底在声称什么？
这条 claim 属于哪类贡献？
什么证据能支持它？
它最可能和哪类先验工作重叠？

示例：

text

Idea: 用 curriculum learning 加速文本 diffusion 训练

Claim 1: 在相同最终质量下，curriculum 能减少训练步数
Claim 2: 文本 diffusion 需要不同于图像任务的难度度量
Claim 3: 该方法的收益主要出现在长序列或低资源 setting

每个 claim 都建议写成一个简短的 Claim Card：

markdown

## Claim C1
- Claim text:
- Contribution type:
- Why this matters:
- Evidence needed:
- Likely closest work:
- If already done, what remains?

如果你无法把 idea 拆成清晰 claim，通常说明：

idea 还太空
贡献边界还没定义
后面也很难做可信的新颖性判断

Phase 2: 对每个 claim 做多轮检索扩展

不要只搜一句原始标题。对每个 claim，至少跑 4 类 query：

Query 维度	你在找什么
精确表达	看是否已有几乎同题的工作
同义/改写表达	防止别人只是用了不同术语
父问题表达	看更宽泛的问题是否已经覆盖你的 claim
failure / limitation / boundary 表达	看是否已有论文在边界条件上得过类似结论

示例：

text

"curriculum learning diffusion"
"easy-to-hard diffusion training"
"diffusion training data ordering"
"diffusion acceleration" curriculum OR data selection
"curriculum" "text diffusion"
"diffusion" training efficiency limitations

检索时要刻意做的 4 件事

每个核心 claim 至少用 3+ 种表述
对每个最可疑的近邻论文做向前引用和向后引用
最近 6-12 个月单独补查一轮，不要混在旧结果里
检查是否有同一工作在 arXiv、OpenReview、正式会议中重复出现

工具接入建议

这一章非常适合接入附录 D 中的检索和问答工具：

工具	更适合做什么	不要直接拿来做什么
Open Deep Research / GPT Researcher	扩 query、分解子问题、整理候选来源	直接下最终“够不够新”的结论
PaperQA2 / Scholar QA	对具体 claim 做文献问答、定位近邻证据	代替你核对原文中的方法和实验细节
claude-scholar 风格的引用核验	检查你写下的 overlap / difference 是否有来源支撑	代替研究定位判断

这部分之所以强调工具边界，是因为这些流程并不是传统“先搜再读”的泛泛建议，而是直接来自自动化科研系统和 citation-grounded QA 项目的稳定经验提炼。

Phase 3: 读取最接近工作，并建立 `CLOSEST_WORK_TABLE.csv`

只要你准备把某篇论文写成“closest work”，就不要停留在摘要层面。

至少要回答：

它的核心 claim到底是什么？
它和你的任务、setting、数据、指标是否真的一致？
它的 strongest evidence 来自哪张表、哪个 setting？
你的差异到底是机制差异、评测差异、边界差异，还是只是包装差异？
作为审稿人，它最可能如何压缩你的贡献空间？

`CLOSEST_WORK_TABLE.csv` 最低字段

字段	说明
`claim_id`	对应哪个 claim
`prior_work`	最接近工作
`year`	年份
`venue`	发表位置
`overlap`	与本 claim 的重叠点
`difference`	当前可成立的差异点
`strongest_evidence`	近邻工作最强证据
`risk`	LOW / MEDIUM / HIGH
`confidence`	你对判断的把握

最低要求是和附录 E 一致的核心字段： claim_id, prior_work, overlap, difference, risk

示例：

markdown

| claim_id | prior_work | year | venue | overlap | difference | strongest_evidence | risk | confidence |
|----------|------------|------|-------|---------|------------|--------------------|------|------------|
| C1 | Paper A | 2024 | NeurIPS | 都研究 diffusion 训练加速 | Paper A 用 pruning，不涉及 curriculum | Table 2, convergence plots | MEDIUM | HIGH |
| C2 | Paper B | 2025 | arXiv | 都讨论样本难度 | Paper B 只做图像，不含文本难度定义 | Appendix C | HIGH | MEDIUM |

一个可选的 claim-level 流程图（LaTeX/TikZ）

如果你想在本章放一张“新颖性验证主链图”，可以直接使用下面的 LaTeX 代码：

Claim-level novelty checking in this handbook. The agent can help expand search and organize comparisons, but the final positioning decision remains human-reviewed.

使用时需要：

latex

\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}

Phase 4: 做 claim 级判断，而不是一句话打分

对每个 claim，建议至少给出下面 4 类判断之一：

判断	含义	典型行动
`DONE`	这条 claim 基本已被现有工作覆盖	放弃、缩小或改写
`OVERLAPPED`	有明显重叠，但仍可能存在可辩护差异	收紧定位，避免夸大
`FRAGILE_NOVEL`	看起来新，但很容易被质疑	在实验设计里专门补证据
`CLEAR_NOVEL`	最近工作无法覆盖这条 claim	作为主打贡献推进

如果你想保留一个总分，也可以，但总分必须附理由。本书更推荐保留：

每个 claim 的判断
每个 claim 的 closest work
每个 claim 的风险等级
整体 recommendation

整体 recommendation 建议

建议	典型条件
`ABANDON`	核心 claim 已被覆盖，剩余差异不足以成立论文
`REPOSITION`	主 claim 不够新，但诊断、边界或评测角度仍成立
`PROCEED_WITH_CAUTION`	存在新意，但需要针对重叠点设计更强证据
`PROCEED`	核心 claim 新、差异清晰、closest work 也已查清

Phase 5: 形成 `NOVELTY_REPORT.md`

这份报告不是给自己打气，而是给下一章明确输入。

最低应该包含：

shortlist idea 的一句话定义
claim 列表
每个 claim 的 closest work、overlap、difference、risk
整体 recommendation
必须引用的工作
必须在实验里直接回应的 strongest objection

`NOVELTY_REPORT.md` 模板

markdown

# Novelty Report

## Idea
- Title:
- Contribution type:
- Why this is worth checking:

## Claim-level Assessment

| Claim ID | Claim | Closest Work | Overlap | Difference | Risk | Verdict |
|----------|-------|--------------|---------|------------|------|---------|
| C1 | ... | ... | ... | ... | HIGH | OVERLAPPED |
| C2 | ... | ... | ... | ... | MEDIUM | FRAGILE_NOVEL |

## Must-Cite Prior Work
- [Paper A] — why it matters
- [Paper B] — why it matters

## Strongest Reviewer Objections
1. ...
2. ...

## Overall Recommendation
- Decision: PROCEED_WITH_CAUTION
- Main differentiator:
- Main risk:
- Claims to avoid overstating:

## Handoff to Experiment Design
- Must-run baselines:
- Must-test settings:
- Must-prove evidence:

Phase 6: 把结论交给实验设计，而不是停在“看起来挺新”

如果本章完成得好，进入 05-实验设计时，你应该已经知道：

该和哪几篇工作直接比较
哪条 claim 最值得优先验证
哪个重叠点最危险，必须优先补证据
abstract 和 intro 里哪些话现在还不能说太满

换句话说，本章的出口应该是：

我不只是知道“它可能是新的”，而是知道“它要怎么被证明是新的”。

质量控制

1. 最近 6-12 个月必须单独刷新

AI/ML 方向变化快。你 3 周前得到的“空白”，可能在你真正开始实现前就已经消失。

2. 不要只搜整句话

很多重叠工作不是题目重合，而是 claim 重合。

3. “closest work” 必须配 strongest evidence

如果你说某篇工作最接近，你最好能指出：

它最强的实验在哪
你的差异到底落在哪一层
这个差异是不是审稿人会认可的差异

4. 不要把“任务不同”直接等同于“贡献不同”

任务、模态、规模不同，有时只是 setting 变化，不一定自动构成贡献。

5. 新颖性判断必须回到证据，而不是回到措辞

不要因为自己的表述更学术、更完整，就误以为贡献更强。

常见错误

错误 1：把整个 idea 当成一个搜索词

表现：只搜一句标题式表达，没把 claim 拆开。

解决：先做 claim list，再对每条 claim 单独搜索。

错误 2：找到一篇相似论文后就停止

表现：找到“像”的工作后马上下结论，没有继续看引用网络和最近更新。

解决：对最可疑近邻论文做向前/向后引用扩展，并单独补查最近 6-12 个月。

错误 3：把“应用 X 到 Y”当成完整贡献

表现：论文的主要差异只是任务或模态变化。

解决：问自己：新的技术约束、诊断结论、评测需求或机制解释到底在哪里？

错误 4：故意把最接近工作写远

表现：为了显得新，把真正最接近的工作淡化成“相关工作”。

解决： closest work 必须写最危险的那个，而不是最舒服的那个。

错误 5：盲信工具生成的 novelty summary

表现：把 PaperQA2、Scholar QA 或 deep research agent 的总结直接当最终结论。

解决：把工具输出视为草稿，最终 overlap / difference 仍需回源确认。

错误 6：只有总体评分，没有 claim 级判断

表现：最后只有一个 7/10，却不知道到底哪条 claim 真正新。

解决：先做 claim 级 verdict，再给整体 recommendation。

检查清单

完成本章后，你应该至少拥有：

问题	状态
我把 shortlisted idea 拆成 2-5 个 claim 了吗？	✅
每个核心 claim 都跑过多轮 query 了吗？	✅
我单独补查了最近 6-12 个月的新工作吗？	✅
我真的找到了 closest work，而不是方便引用的工作吗？	✅
每个 claim 都有 overlap / difference / risk 吗？	✅
我知道下一章该和谁比、该证明什么吗？	✅

如果有 ❌，不要急着开始主实验。

小结

AI/ML 研究里的新颖性验证，本质上是一个claim 级定位过程：

从 IDEA_REPORT 里拿到 shortlist
把每个 idea 拆成可检索 claim
为每个 claim 做多轮扩展检索
建立 CLOSEST_WORK_TABLE.csv
在 NOVELTY_REPORT.md 里给出可防守的定位和 recommendation

下一步：05-实验设计 — 把 novelty risk 转成最小可行实验与 baseline 计划

引用 ARIS：本章的基础工作流来自 ARIS 的 novelty-check 技能。
扩展来源：这一版还吸收了 Open Deep Research、GPT Researcher、PaperQA2、Scholar QA、claude-scholar 等检索、问答和引用核验系统的可执行经验。完整来源见：附录 D

04 - 新颖性验证 ​

目标 ​

完成标准 ​

输入与标准产物 ​

输入 ​

标准产物 ​

人类-智能体协作 ​

在 AI/ML 里，什么算新颖 ​

工作流 ​

Phase 0: 先回到 PROBLEM_NOTE.md，定义你要验证的“新颖性单位” ​

Phase 1: 把 idea 拆成 claim list ​

Phase 2: 对每个 claim 做多轮检索扩展 ​

推荐的来源顺序 ​

检索时要刻意做的 4 件事 ​

工具接入建议 ​

Phase 3: 读取最接近工作，并建立 CLOSEST_WORK_TABLE.csv ​

CLOSEST_WORK_TABLE.csv 最低字段 ​

一个可选的 claim-level 流程图（LaTeX/TikZ） ​

Phase 4: 做 claim 级判断，而不是一句话打分 ​

整体 recommendation 建议 ​

Phase 5: 形成 NOVELTY_REPORT.md ​

NOVELTY_REPORT.md 模板 ​

Phase 6: 把结论交给实验设计，而不是停在“看起来挺新” ​

质量控制 ​

1. 最近 6-12 个月必须单独刷新 ​

2. 不要只搜整句话 ​

3. “closest work” 必须配 strongest evidence ​

4. 不要把“任务不同”直接等同于“贡献不同” ​

5. 新颖性判断必须回到证据，而不是回到措辞 ​

常见错误 ​

错误 1：把整个 idea 当成一个搜索词 ​

错误 2：找到一篇相似论文后就停止 ​

错误 3：把“应用 X 到 Y”当成完整贡献 ​

错误 4：故意把最接近工作写远 ​

错误 5：盲信工具生成的 novelty summary ​

错误 6：只有总体评分，没有 claim 级判断 ​

检查清单 ​

小结 ​

04 - 新颖性验证

目标

完成标准

输入与标准产物

输入

标准产物

人类-智能体协作

在 AI/ML 里，什么算新颖

工作流

Phase 0: 先回到 `PROBLEM_NOTE.md`，定义你要验证的“新颖性单位”

Phase 1: 把 idea 拆成 claim list

Phase 2: 对每个 claim 做多轮检索扩展

推荐的来源顺序

检索时要刻意做的 4 件事

工具接入建议

Phase 3: 读取最接近工作，并建立 `CLOSEST_WORK_TABLE.csv`

`CLOSEST_WORK_TABLE.csv` 最低字段

一个可选的 claim-level 流程图（LaTeX/TikZ）

Phase 4: 做 claim 级判断，而不是一句话打分

整体 recommendation 建议

Phase 5: 形成 `NOVELTY_REPORT.md`

`NOVELTY_REPORT.md` 模板

Phase 6: 把结论交给实验设计，而不是停在“看起来挺新”

质量控制

1. 最近 6-12 个月必须单独刷新

2. 不要只搜整句话

3. “closest work” 必须配 strongest evidence

4. 不要把“任务不同”直接等同于“贡献不同”

5. 新颖性判断必须回到证据，而不是回到措辞

常见错误

错误 1：把整个 idea 当成一个搜索词

错误 2：找到一篇相似论文后就停止

错误 3：把“应用 X 到 Y”当成完整贡献

错误 4：故意把最接近工作写远

错误 5：盲信工具生成的 novelty summary

错误 6：只有总体评分，没有 claim 级判断

检查清单

小结