跳到主要内容

03 生物学常识 vs 统计显著性

DESeq2 告诉你某个基因 padj = 1e-10,但你查了文献发现这个基因和你的研究方向完全无关。GSEA 告诉你"嗅觉受体通路"在肝癌中显著富集,但这在生物学上说不通。这时候该信统计还是信常识?

这个问题没有万能答案,但有判断框架。这一章用 5 个真实冲突场景来训练你的判断力:什么时候统计是对的、你的常识需要更新;什么时候统计是被 artifact 驱动的、应该相信生物学直觉。

决策框架:三步判断法

遇到"统计显著但生物学上说不通"的结果时,按以下三步走:

第一步:检查技术层面。 这个结果有没有可能是技术 artifact?批次效应、样本污染、基因注释错误、mapping 问题——这些都能制造"统计显著但生物学无意义"的结果。如果能找到技术原因,问题就解决了。

第二步:检查统计层面。 效应量有多大?是不是大样本放大了微小差异?有没有混杂因素没校正?多重检验校正是否充分?如果效应量很小或者有明显混杂,统计显著性的可信度要打折扣。

第三步:检查生物学层面。 你的"常识"是否真的正确?有没有可能这个基因有你不知道的功能?有没有最新文献报道了新的关联?科学发现本来就是在挑战已有认知——如果前两步都排除了 artifact,也许你面对的是一个真正的新发现。

下面用 5 个场景来演练这个框架。

场景一:嗅觉受体通路在肝癌中"显著富集"

观察: 你对 TCGA-LIHC 的差异基因做 GO 富集分析,发现"detection of chemical stimulus involved in sensory perception of smell"(嗅觉感知)这个 GO term 显著富集(padj = 0.003),包含 28 个差异基因。

直觉反应: 肝脏和嗅觉有什么关系?这肯定是错的。

三步判断:

第一步(技术层面):嗅觉受体(OR 基因家族)有 400+ 个成员,它们在基因组上成簇分布,很多是假基因或低表达基因。在 RNA-seq 中,这些基因的 reads 很少,容易受到 mapping 噪声的影响。检查这 28 个基因的 baseMean——如果大部分 baseMean < 10,说明它们的表达量极低,差异可能是噪声。

第二步(统计层面):GO 富集分析的 p 值受基因集大小影响。OR 基因家族有 400+ 个成员,是 GO 中最大的基因家族之一。即使只有少数几个基因随机波动,由于基因集太大,也容易达到统计显著。检查 gene ratio——如果只有 28/400 = 7% 的 OR 基因差异表达,这个富集的实际意义很小。

第三步(生物学层面):近年确实有文献报道部分嗅觉受体在非嗅觉组织中有表达,可能参与代谢调控。但这些发现还很初步,且涉及的是个别特定的 OR 基因,不是整个家族。

结论: 这大概率是技术 artifact + 统计学特性的组合产物。低表达基因的 mapping 噪声 + 超大基因家族的统计优势 = 假阳性富集。正确做法:在差异分析前过滤掉 baseMean < 10 的基因,或者在富集分析中排除 OR 基因家族。在文章中不报告这个结果。

判断:信生物学常识。

场景二:已知的抑癌基因在 tumor 中"上调"

观察: 在 TCGA-LIHC 差异分析中,你发现 TP53(经典抑癌基因)在 tumor 中显著上调(log2FC = 0.8, padj = 2e-12)。

直觉反应: TP53 是抑癌基因,应该在 tumor 中下调或失活才对。上调说不通。

三步判断:

第一步(技术层面):检查 TP53 的 reads 分布是否正常,有没有 mapping 到假基因的问题。TP53 是高表达基因(baseMean > 1000),mapping 问题的可能性很低。技术层面没有明显问题。

第二步(统计层面):log2FC = 0.8 意味着 1.74 倍上调,效应量中等。padj = 2e-12 在 TCGA 的样本量下不算特别极端。统计层面没有明显问题。

第三步(生物学层面):这里需要更新你的"常识"。TP53 的抑癌功能主要通过蛋白水平实现,而不是 mRNA 水平。实际上,TP53 突变(尤其是 missense mutation)会导致突变蛋白的稳定性增加和 mRNA 的代偿性上调。在 TCGA-LIHC 中约 30% 的样本携带 TP53 突变,这些样本中 TP53 mRNA 确实倾向于上调。此外,DNA 损伤应激也会激活 TP53 转录。所以 TP53 mRNA 在 tumor 中上调是完全合理的——它反映的是突变后的代偿反应和应激响应,而不是"抑癌功能增强"。

结论: 统计结果是对的,是你的"常识"需要更新。TP53 的抑癌功能在蛋白层面(突变导致功能丧失),mRNA 上调恰恰是突变/应激的标志。这个发现可以在文章中讨论,但需要正确解读——不是"TP53 作为抑癌基因被激活",而是"TP53 mRNA 上调可能反映了突变状态或 DNA 损伤应激"。

判断:信统计,更新常识。

场景三:免疫检查点基因和脂代谢 signature 高度相关

观察: 你构建了一个脂代谢相关的预后 signature(基于 LCAT、APOA1 等脂代谢基因)。在做免疫浸润关联分析时,你发现 risk score 和 PD-L1(CD274)表达显著正相关(r = 0.35, p = 1e-11)。

直觉反应: 脂代谢和免疫检查点有什么关系?这两个系统看起来完全不相关。

三步判断:

第一步(技术层面):检查是否存在混杂。PD-L1 在免疫细胞中高表达,而免疫细胞浸润程度和肿瘤分期相关。你的 risk score 是否也和分期相关?如果是,那么"risk score ↔ PD-L1"的相关可能是被分期混杂的。做偏相关分析(校正 stage)看相关性是否还存在。

第二步(统计层面):r = 0.35 在 371 个样本中确实是中等强度的相关,不太可能是随机波动。但 r = 0.35 意味着只有 12% 的方差被解释,大部分变异来自其他因素。这个相关是真实的但不强。

第三步(生物学层面):近年来"代谢-免疫交叉"(immunometabolism)是一个活跃的研究领域。脂代谢重编程确实能影响肿瘤微环境中的免疫细胞功能:脂肪酸氧化是 T 细胞记忆形成的关键代谢途径;胆固醇代谢影响 T 细胞受体信号传导;肿瘤细胞的脂代谢改变可以通过改变微环境中的脂质组成来影响免疫细胞。所以脂代谢和免疫检查点之间存在生物学联系是合理的。

结论: 这个相关可能是真实的,但需要谨慎解读。正确做法:(1) 校正 stage 后看相关是否仍然存在;(2) 在 Discussion 中引用 immunometabolism 文献支持这个关联的生物学合理性;(3) 明确说"our data suggest an association"而不是"lipid metabolism regulates PD-L1";(4) 把这个发现作为"值得进一步研究的方向"而不是"确定的结论"。

判断:统计可能是对的,但解读要克制。

场景四:性别相关基因在"tumor vs normal"中差异表达

观察: 差异分析发现 XIST(X 染色体失活的关键 lncRNA,只在女性中表达)在 tumor 中显著下调(log2FC = -1.2, padj = 0.001)。

直觉反应: XIST 和肿瘤发生有什么关系?它只是一个 X 染色体失活的标记。

三步判断:

第一步(技术层面):检查 tumor 和 normal 样本中的性别比例。TCGA-LIHC 中 tumor 样本男女比约 2.5:1(男性多),而 normal 样本的性别比可能不同。如果 normal 中女性比例更高,XIST 在 normal 中的平均表达就会更高——这不是肿瘤生物学,而是样本组成的差异。

具体检查:

# 检查 tumor 和 normal 中的性别分布
table(col_data$gender, col_data$sample_type)
# Normal Tumor
# Female 22 121
# Male 28 250

如果 Normal 中女性占 44%(22/50)而 Tumor 中女性只占 33%(121/371),那么 XIST 的"下调"完全可以用性别比例差异解释。

第二步(统计层面):在 design formula 中加入 gender 作为协变量(~ gender + condition),重新跑 DESeq2。如果 XIST 在校正性别后不再显著,确认是混杂效应。

第三步(生物学层面):确实有文献报道 XIST 在某些癌症中有抑癌功能(通过 miRNA sponge 机制),但这些发现主要在细胞系实验中,且争议较大。在没有排除混杂因素之前,不应该跳到这个解释。

结论: 大概率是性别比例混杂导致的假阳性。正确做法:在 design formula 中校正性别,或者只在同性别样本中做分析。如果校正后 XIST 仍然显著,再考虑生物学解释。

判断:信生物学常识(先排除混杂)。

场景五:GSEA 显示"细胞周期"通路在 tumor 中下调

观察: 你对 TCGA-LIHC 的 tumor vs normal 差异基因做 GSEA,发现"cell cycle"通路的 NES(Normalized Enrichment Score)为负值(NES = -1.8, padj = 0.01),意味着细胞周期基因在 tumor 中整体下调。

直觉反应: 肿瘤的标志就是不受控的增殖,细胞周期基因应该上调才对。下调完全说不通。

三步判断:

第一步(技术层面):检查 GSEA 的输入。GSEA 需要一个 ranked gene list,排序方式很关键。你用的是什么排序?如果用的是 sign(log2FC) × -log10(pvalue),检查正负方向是否正确——有时候 contrast 的方向设反了(Normal vs Tumor 而不是 Tumor vs Normal),导致所有方向都反了。

# 检查 contrast 方向
resultsNames(dds)
# 如果是 "condition_Tumor_vs_Normal",log2FC > 0 表示 Tumor 中上调
# 如果是 "condition_Normal_vs_Tumor",方向相反!

第二步(统计层面):看 leading edge 基因具体是哪些。"cell cycle"是一个大通路(100+ 基因),其中包含正调控因子(CDK、Cyclin)和负调控因子(CDK inhibitors 如 CDKN1A/p21、CDKN2A/p16)。如果 leading edge 主要是 CDK inhibitors,那么"cell cycle 通路下调"实际上意味着"细胞周期抑制因子下调"——这和肿瘤增殖是一致的。

第三步(生物学层面):如果排除了方向错误和 leading edge 问题,还有一种可能:TCGA-LIHC 的 normal 样本是癌旁组织,而癌旁组织经常处于代偿性增殖状态(肝脏再生)。如果 normal 的增殖活性异常高,那么 tumor vs normal 的比较中 tumor 看起来"增殖更低"是可能的。

结论: 最可能的原因是 contrast 方向设反了,或者 leading edge 基因的解读需要更细致。正确做法:(1) 确认 contrast 方向;(2) 检查 leading edge 基因列表;(3) 如果确认方向正确且 leading edge 确实是增殖促进基因,考虑癌旁组织代偿增殖的解释,并在 Discussion 中讨论。

判断:先检查技术问题(方向),再细看统计细节(leading edge),最后考虑生物学解释。

什么时候该相信统计

总结以上场景,统计结果值得相信的条件:

  1. 技术层面干净:排除了 batch effect、mapping error、样本混淆等技术问题
  2. 效应量足够大:不只是 p 值小,log2FC 或 HR 也有实际意义
  3. 多个独立证据支持:不同数据集、不同方法、不同层面(转录组 + 蛋白组)都指向同一个方向
  4. 有合理的生物学解释路径:即使你之前不知道,查文献后能找到逻辑链条
  5. 不依赖特定参数选择:换个阈值、换个工具,结论还成立

当这 5 个条件都满足时,即使结果违反你的初始直觉,也应该认真对待——你可能面对的是一个真正的新发现。

什么时候该相信生物学常识

统计结果应该被怀疑的条件:

  1. 效应量极小:padj 很小但 log2FC < 0.5,在大样本中很常见
  2. 有明显的混杂因素未校正:性别、年龄、分期、批次
  3. 结果依赖特定参数:换个阈值或换个工具就消失了
  4. 涉及低表达基因或超大基因家族:噪声和统计偏差的高发区
  5. 只有单一证据:只在一个数据集、一种分析方法中出现
  6. 违反基本的生物学原理:比如"肝脏特异性基因在肝脏中不表达"

当这些条件出现时,应该优先排查技术和统计问题,而不是急着给出生物学解释。

在论文中如何处理冲突结果

遇到"统计显著但生物学上不确定"的结果,有三种处理方式:

方式一:不报告。 如果你确认是 artifact(如场景一的嗅觉受体),直接不放进文章。不需要解释为什么不报告——审稿人不会问"你为什么没报告嗅觉受体通路"。

方式二:作为次要发现报告,在 Discussion 中讨论。 如果结果可能是真的但你不确定(如场景三的免疫-代谢关联),可以在 Results 中简要提及,然后在 Discussion 中讨论可能的解释和局限性。用"interestingly"或"unexpectedly"引出,表明你意识到这个结果需要进一步验证。

方式三:作为核心发现报告,提供充分证据。 如果你有多个独立证据支持一个违反直觉的发现(如场景二的 TP53 上调),可以把它作为文章的亮点。但需要提供充分的解释和文献支持,让审稿人相信你不是在报告 artifact。

写作模板:

报告意外发现时的标准句式:

"Unexpectedly, we observed that [结果描述]. This finding is consistent with recent reports showing [文献支持]. One possible explanation is [机制假说]. However, we cannot exclude the possibility that [替代解释]. Further experimental validation is warranted to confirm this observation."

这个句式的优点是:承认结果意外 → 提供文献支持 → 给出假说 → 承认不确定性 → 指出需要验证。审稿人看到这种写法会觉得你是一个严谨的研究者。

常见坑

  • 看到意外结果就删掉:不是所有意外结果都是 artifact。如果你系统性地删除所有"说不通"的结果,你可能会错过真正的新发现。正确做法:用三步判断法评估,只删除确认是 artifact 的结果。

  • 为意外结果强行编故事:发现一个统计显著但生物学上说不通的结果,然后花大量篇幅在 Discussion 中编造一个复杂的机制假说来"解释"它。审稿人一眼就能看出这是事后合理化。正确做法:如果找不到合理的生物学解释,诚实地说"the biological significance of this finding remains to be elucidated"。

  • 把"我不知道"等同于"不可能":你不知道某个基因的功能,不代表它没有功能。组学分析的一个价值就是发现已有知识框架之外的关联。正确做法:对于功能未知的基因,查 GeneCards、UniProt、最新文献,看是否有新的功能注释。

  • 忽略 contrast 方向:这是最低级但最常见的错误。DESeq2 的 contrast 方向设反了,所有上调变下调、下调变上调。你可能花了一周时间试图解释"为什么增殖基因在 tumor 中下调",最后发现只是方向反了。正确做法:分析开始时用 3-5 个已知 marker 验证方向(如 AFP 在肝癌中上调、ALB 在肝癌中下调)。

  • 过度依赖单一通路数据库:GO 和 KEGG 的基因集定义不同,同一个通路在不同数据库中包含的基因可能差异很大。一个通路在 GO 中显著但在 KEGG 中不显著,不一定是矛盾——可能只是基因集定义不同。正确做法:用多个数据库交叉验证,关注一致的结果。

下一步

接着深入: 当你确认一个结果是真实的之后,下一个问题是"用什么工具来分析它"。同一个问题有 5 种工具可以选,怎么决定?04 工具选择:同一件事 5 个工具怎么选 会给出一个实用的决策框架。

横向延伸: 如果你想看"把统计结果翻译成生物学语言"的具体操作,可以看 07 整合解读:把结果翻译成生物学语言,那里有从通路到假说的完整流程。

参考资源

  • Leek JT, Peng RD (2015) "Statistics: P values are just the tip of the iceberg." Nature 520:612. 关于 p 值之外还需要看什么的评论文章。
  • Pavlidis P et al. (2012) "A critical assessment of storytelling: gene ontology categories and the importance of validating genomic scans." Molecular Biology and Evolution 29:3237-3248. 关于 GO 富集分析过度解读的批判性评估。
  • Crow M et al. (2019) "Predictability of human differential gene expression." PNAS 116:6491-6500. 关于差异表达结果可预测性的研究,揭示了很多"发现"其实是可预期的。
  • Lazar C et al. (2012) "Batch effect removal methods for microarray gene expression data integration: a survey." Briefings in Bioinformatics 14:469-490. 批次效应识别和去除的综述。
  • Subramanian A et al. (2005) "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles." PNAS 102:15545-15550. GSEA 原始论文,理解 NES 和 leading edge 的含义。
AI 陪学

让 AI 陪我学这一篇

AI 会读这篇文章后给你 3-5 步学习计划, 逐步陪你学完,最后出 1-3 道题验证你掌握得怎么样。 登录后 AI 才能记住你的进度。

静态文件

离线资料下载

手册 HTML / PDF 已在后台预生成,点击后直接下载网站静态资源。