主题
03 - 想法生成
围绕同一问题生成多个候选解法
目标
想法生成不是“灵感突然出现”,而是把 01-研究思维 里定义好的问题、以及 02-文献调研 里的结构化材料,转成一组可比较、可淘汰、可交给 novelty check 和 pilot 验证的候选解法。
本章的目标是:
- 围绕同一个
PROBLEM_NOTE.md生成 8-15 个候选解法 - 强制把候选解法写成统一格式,便于比较和淘汰
- 保留 3-5 个值得进入 04-新颖性验证 和 05-实验设计 的 shortlist
- 记录淘汰理由,避免之后重复走回头路
本章回答的问题是:
针对这个已定义的问题,现在有哪些值得竞争的候选解法?
先把 01 和 03 分开
这本手册里,01 和 03 不是同义重写,而是上下游关系:
01定义要回答的问题03生成回答这个问题的候选解法
一句判别法
- 如果一句话在换掉具体方法后仍然成立,它属于
01 - 如果一句话只有在保留某个机制时才成立,它属于
03
同一个例子
属于 01
text
AI4PDE 中,预训练-微调模型在分布偏移下是否存在可被 test-time 利用的信息?属于 03
text
Idea A: retrieval-enhanced TTA
Idea B: self-supervised TTA without retrieval
Idea C: PDE-family-conditioned lightweight adapter所以本章的任务不是再问一遍“test-time information 有没有价值”,而是问:
如果这个问题值得做,最值得试的方案有哪些?
完成标准
完成这一章,不等于“我想到几个方向”,而是至少要做到:
- 你有一个结构化的
IDEA_BACKLOG.csv - 每个 shortlisted idea 都能明确说清怎么做
- 每个 idea 都有最小实验、最强反驳和最近相关工作
- 你记录了哪些 idea 被淘汰,以及为什么被淘汰
- 你能把 top 3-5 个候选解法平稳交给 04-新颖性验证 和 05-实验设计
输入与标准产物
输入
建议直接使用 01-02 章产物:
| 输入 | 作用 |
|---|---|
PROBLEM_NOTE.md | 锁定问题边界、non-goals 和资源约束 |
PAPER_TABLE.csv | 提供最近工作、实验设置和常见限制 |
LITERATURE_MAP.md | 提供方法簇和主线结构 |
CONTRADICTION_LOG.md | 提供冲突点和诊断线索 |
OPEN_QUESTIONS.md | 提供尚未解决的问题 |
| 当前资源约束 | 决定哪些方案现实可做 |
标准产物
本章建议产出 4 份材料:
| 产物 | 作用 | 后续会在哪用到 |
|---|---|---|
IDEA_BACKLOG.csv | 候选解法池,统一记录字段 | 04, 05, 06 |
IDEA_SCORECARD.md | 每个方案的多维打分与理由 | 04, 08 |
ELIMINATED_IDEAS.md | 被淘汰方案和淘汰原因 | 06, 08 |
IDEA_REPORT.md | 最终 shortlist 和执行顺序 | 04, 05, 06 |
这些 artifact 的统一命名、建议路径和状态定义见:附录 E
人类-智能体协作
| 阶段 | 智能体适合做什么 | 人必须负责什么 | 常见风险 |
|---|---|---|---|
| 解法发散 | 基于文献图谱扩展候选方案、拆解机制 | 判断这些方案是否真的在回答同一个问题 | 方案越生成越偏,最后换了问题 |
| 方案补全 | 整理最近工作、最近 baseline、最小实验和实现需求 | 判断这些补全是否准确 | 把相关工作说得过于不一样 |
| 打分整理 | 按维度给出评分、风险和排序草稿 | 审核排序是否符合研究直觉 | 用形式化评分掩盖判断错误 |
| 魔鬼代言 | 扮演 reviewer 质疑每个方案 | 决定这些质疑是否致命 | 把可修复问题误当成必须淘汰 |
本章默认的工作方式是:
可以把智能体当成候选解法生成器和比较器,但不能让它替你在问题还没锁清时就爱上某个方案。
候选解法的最低要求
一个值得进入下轮的 idea,通常至少满足下面 5 条中的 4 条:
| 条件 | 为什么重要 |
|---|---|
| 回答同一个问题 | 没有偷偷换题 |
| 机制清楚 | 能说明到底怎么做 |
| 最小实验存在 | 能低成本拿到第一轮信号 |
| 与最近工作有区分度 | 不会做完才发现只是换个说法 |
| 可被 reviewer 质疑也可被你回应 | 后续能进入 novelty check 和实验设计 |
本章的好方案,不是“听起来新”,而是“对同一个问题给出了一个清晰、可验证、可防守的候选答案”。
好方案都从哪里来
不要从空白页开始想。
优先从上游产物里“收割”候选解法,并始终受 PROBLEM_NOTE.md 约束。
| 来源 | 常见模式 | 适合生成的方案 |
|---|---|---|
| 方法簇差异 | A 类方法有效,B 类方法失效 | 混合式或替代式方案 |
| 冲突结论 | 两篇论文结论相反 | 针对边界条件的方案 |
| 未解释现象 | 大家都观察到 X,但没人解释 | 诊断式方案 |
| benchmark 缺口 | 当前评测覆盖不全 | 评测或 stress-test 方案 |
| author limitations | 作者承认某个弱点 | 针对弱点的修复或隔离方案 |
| failure mode | 某类方法在某 setting 失败 | failure-aware 方案 |
工作流
Phase 0: 锁定“同一个问题”
在发散之前,先把 PROBLEM_NOTE.md 中最关键的 3 件事写在眼前:
- 核心问题是什么
- 本轮 non-goals 是什么
- 资源预算是什么
如果一个候选方案不能回答这个问题,或者需要引入新的问题定义,它不该进同一个 IDEA_BACKLOG.csv。
Phase 1: 对同一个问题强制生成多个方案
至少生成 3 类不同机制的候选解法,而不是只沿着第一直觉往下走。
例如针对:
text
AI4PDE 中,test-time 信息是否有价值?至少应尝试生成:
- retrieval-based 方案
- self-supervised adaptation 方案
- lightweight adapter / calibration 方案
- failure-aware fallback 方案
如果最后只有一个方案,大概率说明你还是把问题和方法绑死了。
Phase 2: 把每个方案写成 Idea Card
每个 candidate 都建议写成下面格式:
markdown
## Idea: [title]
- Linked problem:
- One-sentence summary:
- Method sketch:
- Intervention point:
- Why this could answer the problem:
- Why this might fail:
- Closest prior work:
- Key difference from prior work:
- Minimum viable experiment:
- Required assets:
- Biggest reviewer objection:
- Estimated cost:这里的关键变化是:
01写的是Question03写的是Method sketch和Intervention point
建议的 IDEA_BACKLOG.csv 字段
| 字段 | 说明 |
|---|---|
idea_id | 唯一编号 |
linked_problem | 对应哪个 PROBLEM_NOTE |
title | 一句话方案名 |
method_sketch | 具体做法 |
intervention_point | 在 pipeline 的哪个位置施加干预 |
source | 来自哪条开放问题、限制或冲突 |
closest_work | 最近相关工作 |
difference | 与最近工作的核心差别 |
mve | minimum viable experiment |
cost | 时间 / GPU / 实现复杂度 |
risk | LOW / MEDIUM / HIGH |
status | candidate / shortlisted / eliminated |
Phase 3: 对比的是“解法”,不是“问题”
本章的比较维度应该围绕方案本身:
| 维度 | 你在比较什么 |
|---|---|
| Mechanism clarity | 方案到底怎么起作用 |
| Leverage | 它是否真正利用了问题中的关键可用信息 |
| Feasibility | 是否能在预算内快速验证 |
| Defensibility | reviewer 最可能攻击什么 |
| Redundancy risk | 是否只是把已有方法换个包装 |
如果你还在比较“这个问题重要不重要”,那说明你回到了 01。
Phase 4: 快速过滤
从 8-15 个方案筛到 3-5 个时,不靠感觉,建议至少过 5 道门:
4.1 它真的回答同一个问题吗
如果一个方案为了成立,需要换掉原问题,它应直接出局或单开新 PROBLEM_NOTE。
4.2 它的机制是否清楚
如果你不能用两三句话说明“它到底怎么做”,它通常还不是一个成熟 idea。
4.3 它是否有最小实验
能否在低成本下拿到第一轮信号,依然是硬条件。
4.4 它是否容易被已有工作吞掉
如果最近工作已经做过非常相近的机制,它应尽早降级到 backup 或淘汰。
4.5 它是否值得进入 novelty check
最后保留的方案,应该是那些值得继续做 claim-level novelty judgment 的方案。
一个补充的 Idea 筛选决策树(LaTeX/TikZ)
如果你想在本章加入一张“候选解法如何被逐级淘汰”的图,可以直接使用下面的 LaTeX 代码:
使用时需要:
latex
\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}一个可选的解法漏斗图(LaTeX/TikZ)
如果你想在书里加一张“从问题到候选解法池”的示意图,可以直接用下面的 LaTeX 代码:
使用时需要:
latex
\usepackage{tikz}
\usetikzlibrary{positioning,arrows.meta}IDEA_SCORECARD.md 示例
markdown
# Idea Scorecard
## Idea A: retrieval-enhanced TTA
- Answers the same problem: yes
- Mechanism clarity: 4/5
- Feasibility: 3/5
- Defensibility: 3/5
- Redundancy risk: medium
- Decision: shortlist
## Idea B: self-supervised TTA
- Answers the same problem: yes
- Mechanism clarity: 4/5
- Feasibility: 4/5
- Defensibility: 3/5
- Redundancy risk: low
- Decision: shortlistPhase 5: shortlist,并准备交接
每个 shortlisted idea 至少要带着下面这些信息离开本章:
- 关联的
linked_problem - 一句话方案定义
- 核心机制
- 最近相关工作
- 最小实验
- 最强反驳
- 是否值得做完整 novelty check
换句话说,本章的出口应该是:
我不是只有一个“方向”,而是围绕同一个问题,已经整理出一组可竞争、可比较、可淘汰的候选解法。
IDEA_REPORT.md 模板
markdown
# Research Idea Report
## Linked Problem
- Problem note:
- Core question:
## Recommended Ideas (ranked)
### Idea 1: [title]
- Method sketch:
- Why this could answer the problem:
- Closest prior work:
- Key difference:
- Minimum viable experiment:
- Estimated cost:
- Strongest objection:
- Why keep:
### Idea 2: [title]
- ...
## Eliminated Ideas
| Idea | Reason eliminated |
|------|-------------------|
| ... | Changes the problem definition |
| ... | Too close to [paper] |
| ... | No cheap first experiment |
## Suggested Next Actions
1. Run novelty check for Idea 1 and 2
2. Keep Idea 3 as backup
3. Drop ideas that no longer answer the original problem例子:AI4PDE + test-time adaptation
假设 01 已经写好:
text
AI4PDE 中,test-time 信息是否能提升分布偏移下的鲁棒性?那么本章应该生成的是候选解法,而不是重写问题:
text
Idea A:
retrieval-enhanced TTA,测试时检索相似 PDE case 作为外部记忆
Idea B:
self-supervised TTA,用 PDE residual 在测试时更新轻量参数
Idea C:
family-conditioned adapter,根据 PDE family 在测试时选择或校准 adapter这三条在回答同一个问题,但机制不同,因此它们属于 03。
关键规则
规则 1:不要重新定义问题
本章的输入是 PROBLEM_NOTE.md,不是一个新的开放问题。
规则 2:至少保留 2-3 个竞争方案
如果你太早只剩一个方案,通常说明你把 01 和 03 又绑回去了。
规则 3:比较的是机制,不是措辞
不要因为两个方案表述不同,就误以为它们真的不同。
规则 4:被淘汰的方案也要记录
好的淘汰记录,会直接减少未来的重复探索。
常见错误
错误 1:把问题重写一遍当 idea
表现:
在 03 里仍然写“test-time information 是否有价值”。
解决:
强制改写为“具体怎么利用 test-time information”。
错误 2:只有一个默认方案
表现:
一开始就默认 retrieval-enhanced TTA 是唯一可行路线。
解决:
至少再生成 2 个不同机制的竞争性方案。
错误 3:方案并没有回答同一个问题
表现:
某个 idea 实际上开始回答新的 benchmark、训练策略或数据问题。
解决:
要求每个 idea 都显式写 linked_problem。
错误 4:方法名很新,但机制不清楚
表现:
方案标题像论文,但说不清 intervention point。
解决:
在 Idea Card 里强制填写 method_sketch 和 intervention_point。
错误 5:没有最近相关工作
表现:
做完实验前都不知道它和最近工作差在哪。
解决:
在本章就先填 closest_work,后续再进入 04 深化。
检查清单
完成本章后,你应至少能回答:
| 问题 | 状态 |
|---|---|
我是否围绕同一个 PROBLEM_NOTE 生成了多个候选解法? | [] |
| 我是否能说清每个 shortlisted idea 的具体机制? | [] |
| 我是否写了每个 idea 的最小实验和最强反驳? | [] |
| 我是否记录了被淘汰方案及其原因? | [] |
| 我是否准备好把 shortlist 交给 novelty check? | [] |
小结
AI/ML 研究里的想法生成,本质上不是“再问一遍问题是什么”,而是:
- 锁定同一个
PROBLEM_NOTE.md - 围绕它生成多个竞争性候选解法
- 把每个方案写成 Idea Card
- 用机制清晰度、可行性和可防守性做筛选
- 产出
IDEA_REPORT.md,再进入 04-新颖性验证
下一步:04-新颖性验证 - 把 shortlisted solutions 变成 claim 级别的新颖性判断,并输出 NOVELTY_REPORT.md 与 CLOSEST_WORK_TABLE.csv
引用 ARIS:本章的基础工作流来自 ARIS 的
idea-creator技能。扩展来源:这一版还吸收了 The AI Scientist、HypoGeniC 等自动化 idea generation / hypothesis generation 项目的经验,但明确把它们约束在“围绕同一问题生成候选解法”的范围内。完整来源见:附录 D