01 项目选题：从临床问题到分析问题

一个组学项目能不能做出来，选题阶段就决定了一半。很多人拿到数据就开始跑流程，跑完发现结果"什么都有一点但什么都不深"——根本原因是没有把临床问题翻译成一个可以用数据回答的分析问题。

这一篇不教任何工具，只教一件事：怎么把一个模糊的兴趣方向，变成一个能写进论文摘要第一句话的精确问题。

好选题的三个硬条件

条件	具体要求	不满足时的后果
有明确问题	能用一句话说清"我要回答什么"	跑完一堆分析不知道怎么写 Discussion
有合适数据	公开数据够用 OR 自有数据已测完	做到一半发现数据不支持这个问题
技术可行	分析路线里每一步都有成熟工具	卡在某一步没有工具，项目烂尾

新手最常见的错误是只满足第一个就动手——有个"听上去很酷"的问题，但没确认数据和方法是否支持。

评估清单（动手前 30 分钟做完）

我的问题能不能用一句话写成"In [数据集], we aim to identify [what] that [how] in [population]"？
这个数据集的样本量够不够做我想做的统计（差异分析至少 3v3，生存分析至少 50 个事件）？
PubMed 搜这个关键词 + 数据集，已经有几篇了？跟他们比我能新增什么？
分析路线里最复杂的那一步，我能不能找到一篇教程照着跑通？

四个都"是"，可以开始。有任何一个"不确定"，先花 1 天调研再决定。

"临床问题"→"分析问题"的翻译

这是选题里最难的一步。举几个真实的例子：

临床问题（模糊）	分析问题（精确）
"哪些基因和肝癌预后有关？"	"在 TCGA-LIHC 中，哪些基因的表达与 OS 显著相关（univariate Cox p < 0.01），且在 ICGC-LIRI 中能被验证？"
"免疫治疗为什么对有些肝癌没用？"	"在 TCGA-LIHC 中，免疫冷热肿瘤（基于 ESTIMATE 评分分组）之间有哪些差异转录特征？"
"这个基因在肝癌里有什么功能？"	"在 TCGA-LIHC 中，GENE_X 高/低表达组之间的 GSEA 富集通路有哪些？GENE_X 表达是否和分期/生存独立相关？"

翻译的关键要素：

明确数据集："在 TCGA-LIHC 中" — 不是"在肝癌中"
明确比较："高/低表达组" / "tumor vs normal" / "有突变 vs 无突变"
明确统计标准："padj < 0.05" / "HR > 1.5" / "AUC > 0.7"
明确验证策略："在 ICGC-LIRI 中验证" / "在 GEO GSExxx 中重复"

翻译不好的后果：跑了 3 个月出一堆图和表，写论文时发现串不起来 — 因为从没想清楚"我到底在回答什么"。

TCGA-LIHC：我们为什么选它

本专栏 10 篇从头到尾用同一份数据集贯穿，选 TCGA-LIHC（肝细胞癌）的理由：

维度	说明
样本量	371 tumor + 50 matched normal，做差异和生存分析都够
数据完整	RNA-seq counts + 体细胞突变 MAF + 完整临床（分期、生存、HBV/HCV）
中国相关	肝癌是中国高发癌种（全球 50% 的新发在中国），读者科研场景直接对应
文献丰富	PubMed 搜 "TCGA LIHC" 有 2000+ 篇文献，能随时对比验证
公开免费	GDC Portal 直接下载，TCGAbiolinks 一键获取
适合教学	不需要配对 tumor-normal（50 对就行），差异信号明显

我们在本专栏里会具体做的分析问题是：

"在 TCGA-LIHC 中，哪些免疫相关基因的表达能区分肝癌预后亚群，且和肿瘤微环境免疫浸润相关？"

这个问题足够收窄（免疫 + 预后 + 浸润三个关键词），但又能串起差异分析、富集、生存、免疫评分多个分析模块 — 正好覆盖本专栏 10 篇的内容。

文献调研：30 分钟定位你在哪

动手前必须花半小时回答："别人做到什么程度了？"

三步速查

Step 1：PubMed 关键词搜索

("TCGA" OR "LIHC") AND "immune" AND "prognosis" AND "hepatocellular"

结果可能几百篇。不需要全读。看前 20 篇的标题和摘要，记下：

他们用了什么方法？（LASSO / WGCNA / CIBERSORT / ssGSEA...）
他们找到了什么？（几个基因的 signature / 某个通路 / 某个免疫 subtype）
有什么没做？（没验证 / 没看突变 / 没做单细胞验证 / 方法老）

Step 2：Connected Papers 看关系图

选一篇和你方向最近的文献，粘到 Connected Papers 里。它会画出引用关系图，让你看到这个方向的"上下文"——哪些是源头论文、哪些是最近的跟进。

Step 3：看"这些人漏了什么"

最有价值的选题是"别人做了 A 但没想到 B"。常见的空白：

用了旧方法（edgeR 2015），用新方法（DESeq2 + apeglm shrinkage）可能出不同结论
没做外部验证（只在 TCGA 里做，没在 ICGC / GEO 里重复）
单层组学（只看 RNA），没整合突变 / 甲基化
没做临床亚组分析（HBV+ vs HBV- 可能机制不同）

一个选题从模糊到精确的完整例子

起点：导师说"你看看肝癌免疫微环境方向能不能发一篇。"

翻译过程：

"肝癌免疫微环境" → 太大。收窄到："肝癌免疫浸润和预后的关系"
"关系" → 太模糊。收窄到："找一组免疫相关基因，能预测 OS"
"一组基因" → 需要明确方法。"用 LASSO Cox 从 immune-related genes 里筛 signature"
验证？"在 ICGC-LIRI 队列里验证 signature 的预后预测能力"
新意？"进一步看这个 signature 和 CIBERSORT 免疫细胞浸润的关系 + 和 ICB 响应标记物的相关性"

最终一句话：

"In TCGA-LIHC, we construct and validate an immune-related gene signature (LASSO Cox) that predicts overall survival and correlates with tumor immune infiltration patterns."

这句话能直接放进摘要。能写出这句话，项目就可以开始了。

选题不好的几种典型死法

死法	症状	原因
散弹枪	跑了 10 种分析，每种都有一点结果，但串不成故事	没有"一句话问题"，什么都想看
别人做过了	审稿人说 "novelty insufficient"	文献调研没做够
数据不支持	生存分析只有 10 个事件，p 值虚高	没评估样本量就动手
做完写不出	结果表格一堆但 Discussion 空白	问题太泛，没有可以讨论的机制假说
验证失败	TCGA 里显著，换数据集就不显著	过拟合 / 原始结果是假阳性

常见坑

坑 1：选题时只看 IF，不看可行性

"免疫治疗预测标记物"是热点（IF 高），但需要的数据（治疗前后配对 + 响应信息）在公开数据里极其稀少。先确认数据可得性，再考虑方向的热度。

坑 2：把"描述性分析"当成"问题"

"描述 TCGA-LIHC 的突变景观" 不是一个问题 — 这只是跑了一遍 maftools。问题必须有对比："突变负荷高 vs 低的患者在免疫浸润上有什么差异？"

坑 3：先跑出结果再补选题

跑完发现 TP53 突变和预后相关，然后倒推选题 "我们研究了 TP53 突变和预后的关系"。这种后验选题容易有 cherry-picking 嫌疑，审稿人一看就知道。选题在前、分析在后。

坑 4：一个项目想回答三个独立问题

"我既想看免疫浸润，又想做 lncRNA ceRNA 网络，还想做药物敏感性预测" — 这是三个项目，不是一个。一篇文章只回答一个核心问题，其余的可以放在下一篇。

坑 5：不区分"探索性"和"验证性"分析

用同一份数据既发现 signature 又验证它，等于没验证。发现和验证必须用独立队列。TCGA 做发现 → ICGC / GEO 做验证，是标准设计。

下一步

接着深入：

02 数据获取：从 GDC 拿到合规数据 — 选题确定后第一件事：把 TCGA-LIHC 的 RNA-seq + 突变 + 临床数据下载到本地

横向延伸：

公共数据库与数据检索 — 如果你的选题不用 TCGA，这里有其他公开数据的入口
bulk RNA-seq overview — 确认你对 RNA-seq 基础分析流程已经熟悉

参考资源

静态文件

离线资料下载

手册 HTML / PDF 已在后台预生成，点击后直接下载网站静态资源。

本篇 HTML 本篇 PDF说明

好选题的三个硬条件​

评估清单（动手前 30 分钟做完）​

"临床问题"→"分析问题"的翻译​

TCGA-LIHC：我们为什么选它​

文献调研：30 分钟定位你在哪​

三步速查​

一个选题从模糊到精确的完整例子​

选题不好的几种典型死法​

常见坑​

坑 1：选题时只看 IF，不看可行性​

坑 2：把"描述性分析"当成"问题"​

坑 3：先跑出结果再补选题​

坑 4：一个项目想回答三个独立问题​

坑 5：不区分"探索性"和"验证性"分析​

下一步​

参考资源​

让 AI 带我实战这一篇