05 写作判断：哪些结果可以写、哪些不能写

分析做完你可能有 20 个发现，但不是所有发现都适合写进论文。有些结果证据不够强、有些结果和主线无关、有些结果在方法学上有争议。把不该写的东西写进去，轻则被审稿人要求删除（浪费一轮 revision），重则让审稿人质疑你的判断力（影响整篇文章的可信度）。

这一章用 5 个"能不能写"的场景来训练你的写作判断力。每个场景给出具体的结果，你来判断：写进主文？放 Supplementary？还是不报告？

发表标准 vs 探索标准

在动手判断之前，先明确两种标准的区别：

探索标准（给自己看的）：

p < 0.1 也值得记录
单一数据集的结果也值得关注
方向性趋势（虽然不显著）也有参考价值
目的是"不遗漏任何线索"

发表标准（给审稿人看的）：

需要充分的统计证据（通常 padj < 0.05）
需要独立验证或多重证据支持
需要生物学合理性
效应量需要有实际意义
目的是"每一个报告的结果都经得住质疑"

很多新手的问题是把探索标准当成发表标准——在分析笔记中记录的所有"有趣的发现"都想塞进论文。结果是文章臃肿、主线不清、审稿人抓不住重点。

一个实用的判断标准：如果审稿人问"这个结果的证据是什么？"，你能不能用 2-3 句话给出让人信服的回答？ 如果不能，这个结果还没有达到发表标准。

场景一：单因素 Cox 显著但多变量 Cox 不显著

结果： 你的 signature 基因之一 FABP1 在单因素 Cox 中和 OS 显著相关（HR = 1.45, p = 0.008）。但在多变量 Cox 中（校正 age、stage、grade 后），FABP1 不再显著（HR = 1.18, p = 0.32）。

能不能写？

判断：可以写，但要诚实。

单因素显著 + 多变量不显著，说明 FABP1 的预后关联被临床变量（很可能是 stage）解释了。这不是"错误结果"，而是"不是独立预后因子"。

写法取决于 FABP1 在你文章中的角色：

如果 FABP1 是你 signature 中的一个基因（signature 整体是独立预后因子）：在 Supplementary Table 中列出每个基因的单因素和多变量结果，主文中不需要单独讨论 FABP1。
如果你想把 FABP1 作为单独的 biomarker 来报告：不能写成"FABP1 是预后 biomarker"。可以写"FABP1 expression was associated with OS in univariate analysis but did not retain significance after adjustment for clinical covariates, suggesting its prognostic value is partially mediated by tumor stage."

审稿人会怎么问： "Table 2 shows FABP1 is significant in univariate but not multivariate analysis. Please discuss."

预防措施： 在 Results 中同时报告单因素和多变量结果，不要只报告"好看"的那个。

场景二：外部验证方向一致但 p 值不显著

结果： 你的 15 基因 signature 在 TCGA-LIHC 训练集中 KM 曲线 p = 2e-8，在 ICGC-LIRI 验证集中高风险组确实预后更差（HR = 1.4），但 p = 0.08（不显著）。

能不能写？

判断：可以写，而且应该写。

外部验证的目的是看"方向是否一致"和"效应是否可重复"，不是追求 p < 0.05。ICGC-LIRI 只有 ~240 例，统计功效本身就比 TCGA（365 例）低。HR = 1.4 且方向一致，说明效应是可重复的，只是样本量不足以达到统计显著。

正确写法：

"In the ICGC-LIRI validation cohort (n = 232), patients in the high-risk group showed a trend toward worse overall survival (HR = 1.40, 95% CI: 0.95-2.06, P = 0.08), consistent with the direction observed in the TCGA training cohort. The borderline significance likely reflects the smaller sample size of the validation cohort."

不能写成： "外部验证成功"（p > 0.05 不能说"成功"）或"外部验证失败"（方向一致不能说"失败"）。

审稿人会怎么问： "The external validation did not reach statistical significance. How do you interpret this?"

预防措施： 在 Discussion 的 Limitations 中主动讨论验证集样本量的局限性，并计算 post-hoc power（"with 232 samples and 85 events, the study had 60% power to detect HR = 1.4 at α = 0.05"）。

场景三：GSEA 显著但 ORA 不显著（或反过来）

结果： 对脂代谢通路，GSEA 显示显著富集（NES = 1.8, padj = 0.003），但 ORA 不显著（padj = 0.15）。你想在文章中报告"脂代谢通路在肝癌中显著改变"。

能不能写？

判断：可以写，但需要解释方法差异。

GSEA 和 ORA 回答的是不同的问题。ORA 问"差异基因中脂代谢基因是否过多？"——如果脂代谢基因的 log2FC 普遍中等（0.5-1.0），它们可能没有通过你的差异基因阈值（|log2FC| > 1），所以 ORA 检测不到。GSEA 问"脂代谢基因是否整体偏向上调或下调？"——即使单个基因的变化不大，整体趋势也能被检测到。

这种情况说明：脂代谢通路有一个协调的、中等幅度的整体变化，而不是少数基因的剧烈变化。这是一个有意义的生物学发现。

正确写法：

"GSEA revealed significant enrichment of lipid metabolism gene sets in tumor samples (NES = 1.8, padj = 0.003), indicating a coordinated upregulation of this pathway. Notably, this enrichment was not detected by over-representation analysis (padj = 0.15), likely because individual genes showed moderate fold changes that did not exceed the differential expression threshold."

不能写成： 只报告 GSEA 结果而不提 ORA，让读者以为两种方法都支持。

审稿人会怎么问： "Did you also perform ORA? If so, was the result consistent?"

预防措施： 在 Methods 中说明你同时做了 ORA 和 GSEA，在 Results 中报告两者的结果，在 Discussion 中解释差异的原因。

场景四：Bootstrap 稳定性低的 signature 基因

结果： 你的 LASSO signature 有 15 个基因。做了 100 次 bootstrap 后发现：8 个基因入选频率 > 80%（稳定），4 个基因入选频率 50-70%（中等），3 个基因入选频率 < 30%（不稳定）。

能不能把 15 个基因都写进文章？

判断：都写，但要区分层次。

15 个基因是你的 LASSO 模型选出来的，它们共同构成 signature——你不能随意删除其中几个（那就不是同一个模型了）。但你应该在文章中报告 bootstrap 稳定性，让读者知道哪些基因是核心的、哪些是边缘的。

正确写法：

"Bootstrap analysis (100 iterations) revealed that 8 of the 15 signature genes were selected in >80% of iterations, indicating high stability (Supplementary Table 3). The remaining 7 genes showed moderate to low selection frequency (range: 18-68%), suggesting they may be interchangeable with other candidates in the regularization path."

可以考虑的进阶操作： 用 8 个稳定基因重新构建一个"精简版 signature"，和 15 基因版本做性能对比。如果精简版性能相当，可以在文章中同时报告两个版本，推荐精简版作为更稳健的选择。

不能写成： 只报告 15 基因 signature 而不提 bootstrap 稳定性——这会让审稿人质疑模型的稳健性。

场景五：和主线无关但统计很强的意外发现

结果： 你的文章主线是"脂代谢相关预后 signature"。但在分析过程中你发现：TCGA-LIHC 中 CTNNB1 突变样本的整体生存显著优于野生型（p = 0.003, HR = 0.58）。这个发现和你的脂代谢主线没有直接关系，但统计证据很强。

能不能写？

判断：取决于你能否把它和主线连起来。

三种处理方式：

方式一：如果能连上主线。 如果你发现 CTNNB1 突变样本中脂代谢基因的表达模式不同（比如 CTNNB1 突变激活 Wnt 通路 → 影响 PPARα → 改变脂代谢），那么这个发现可以作为"机制探索"写进主文。它从"意外发现"变成了"支持你主线故事的证据"。

方式二：如果连不上主线但证据强。 放在 Results 的最后一段作为"Additional findings"，或者放在 Supplementary Results 中。在 Discussion 中用一段简要讨论，说明这是一个值得进一步研究的方向。

方式三：如果和主线完全无关。 不写。留着作为下一篇文章的素材。一篇文章应该有一条清晰的主线，塞太多不相关的发现会让文章失焦。

审稿人的两种反应：

如果你写了但连接不够紧密："This finding seems tangential to the main story. Consider removing or moving to Supplementary."
如果你没写但审稿人自己发现了："Did you examine the relationship between CTNNB1 mutation status and your signature?"

预防措施： 如果一个意外发现和你的主线有潜在联系，主动探索这个联系。如果确实连不上，不写比硬写好。

判断清单：一个结果是否达到发表标准

对每个你想写进论文的结果，过一遍这个清单：

条件	达标	不达标的处理
统计显著（padj < 0.05 或等效标准）	必须	不写，或标注"trend"/"suggestive"
效应量有实际意义	必须	不写（大样本中微小差异不值得报告）
有独立验证或多重证据	强烈建议	可以写但在 Limitations 中讨论
和文章主线相关	必须	放 Supplementary 或不写
生物学上合理	强烈建议	如果写，需要在 Discussion 中充分讨论
方法学上无争议	必须	修正方法后重新评估

全部达标： 写进主文 Results。

5/6 达标（缺验证或缺生物学解释）： 可以写进主文，但需要在 Discussion 中讨论局限性。

4/6 或更少： 放 Supplementary 或不报告。

"不写"也是一种判断力

新手倾向于把所有分析结果都塞进论文，觉得"多总比少好"。但实际上，知道什么不该写，比知道什么该写更重要。

一篇好文章的特征是：每一个 figure、每一个 table、每一段 Results 都在推动主线故事前进。读者看完之后能清晰地说出"这篇文章发现了什么"。如果你的文章有 8 个 figure 但读者看完说不出主线是什么，那就是塞了太多不相关的内容。

一个实用的自检方法：写完 Results 后，把每一段的核心发现列成一个列表。如果这个列表读起来像一个连贯的故事（A → B → C → D），说明结构合理。如果读起来像一堆不相关的发现（A, X, B, Y, C），说明需要删减或重组。

审稿人视角：他们在看什么

理解审稿人的思维模式能帮助你做出更好的写作判断：

审稿人关注的：

核心发现是否有充分证据支持
方法是否合理、可复现
结论是否和数据匹配（没有过度解读）
文章是否有清晰的主线和逻辑

审稿人不关注的：

你做了多少分析（他们不在乎你的工作量）
你发现了多少个显著结果（质量 > 数量）
你用了多少种工具（除非和方法学创新相关）

审稿人反感的：

报告了很多结果但没有深入讨论任何一个
只报告"好看"的结果，隐藏不一致的结果
过度解读（把相关性说成因果性，把趋势说成确定结论）
文章太长、figure 太多、信息密度太低

一个好的经验法则：如果你不确定一个结果该不该写，想象审稿人看到它会问什么问题。如果你能自信地回答这些问题，就写；如果你预感会被追问到答不上来，就不写。

常见坑

"显著就报告"的惯性思维：不是所有统计显著的结果都值得报告。在 TCGA 这种大样本中，几千个基因都会"显著"。你需要用效应量、生物学意义、和主线的关联性来进一步筛选。正确做法：把"统计显著"当成必要条件而不是充分条件。
隐藏不一致的结果：训练集 p = 1e-8 但验证集 p = 0.2，只报告训练集结果。这是 reporting bias，审稿人如果要求看验证结果你就露馅了。正确做法：如实报告所有预先计划的分析结果，包括不显著的。在 Discussion 中讨论不一致的原因。
把 Supplementary 当垃圾桶：把所有"不够好但舍不得扔"的结果都塞进 Supplementary，导致 Supplementary 有 30 个 figure。审稿人会觉得你没有判断力。正确做法：Supplementary 放的是"支持主文结论但放不进主文"的内容，不是"做了但不知道放哪里"的内容。
过度包装弱结果：p = 0.04 的结果用"highly significant"来描述，HR = 1.2 的结果用"strongly associated"来描述。审稿人一看数字就知道你在夸大。正确做法：用和数据匹配的语言。p = 0.04 是"marginally significant"或直接报告数字；HR = 1.2 是"modestly associated"。
不区分 confirmatory 和 exploratory 分析：预先计划的分析（confirmatory）和事后追加的分析（exploratory）应该用不同的标准报告。Confirmatory 分析的 p 值可以直接解读；exploratory 分析的 p 值需要更谨慎的解读（因为没有做多重检验校正）。正确做法：在 Methods 中明确哪些分析是预先计划的、哪些是探索性的。

下一步

回到起点： 走完这 5 章，你已经建立了一套完整的分析判断框架：怀疑数据 → 理解统计 → 判断生物学 → 选择工具 → 决定写什么。回到组学分析笔记概览复习整体框架。

实战应用： 把这些思维框架应用到具体项目中。组学项目实战专栏用一个完整的 TCGA-LIHC 项目演示了从选题到归档的全流程，其中每一步都需要用到本专栏讲的判断力。

参考资源

Ioannidis JPA (2005) "Why Most Published Research Findings Are False." PLoS Medicine 2:e124. 关于发表偏倚和假阳性的经典论文，理解为什么"写作判断"如此重要。
Simmons JP, Nelson LD, Simonsohn U (2011) "False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant." Psychological Science 22:1359-1366. 关于分析灵活性如何制造假阳性的实证研究。
Wasserstein RL, Schirm AL, Lazar NA (2019) "Moving to a World Beyond 'p < 0.05'." The American Statistician 73:1-19. ASA 关于超越 p 值的声明，理解"显著≠重要"。
Nosek BA et al. (2018) "The preregistration revolution." PNAS 115:2600-2606. 关于预注册如何区分 confirmatory 和 exploratory 分析。
Lang TA, Altman DG (2015) "Basic statistical reporting for articles published in biomedical journals: the 'Statistical Analyses and Methods in the Published Literature' or the SAMPL Guidelines." International Journal of Nursing Studies 52:5-9. 生物医学论文统计报告的规范指南。

静态文件

离线资料下载

手册 HTML / PDF 已在后台预生成，点击后直接下载网站静态资源。

本篇 HTML 本篇 PDF说明

发表标准 vs 探索标准​

场景一：单因素 Cox 显著但多变量 Cox 不显著​

场景二：外部验证方向一致但 p 值不显著​

场景三：GSEA 显著但 ORA 不显著（或反过来）​

场景四：Bootstrap 稳定性低的 signature 基因​

场景五：和主线无关但统计很强的意外发现​

判断清单：一个结果是否达到发表标准​

"不写"也是一种判断力​

审稿人视角：他们在看什么​

常见坑​

下一步​

参考资源​

让 AI 带我实战这一篇

离线资料下载

发表标准 vs 探索标准

场景一：单因素 Cox 显著但多变量 Cox 不显著

场景二：外部验证方向一致但 p 值不显著

场景三：GSEA 显著但 ORA 不显著（或反过来）

场景四：Bootstrap 稳定性低的 signature 基因

场景五：和主线无关但统计很强的意外发现

判断清单：一个结果是否达到发表标准

"不写"也是一种判断力

审稿人视角：他们在看什么

常见坑

下一步

参考资源