组学项目实战教程

现有专栏按工具组织——DESeq2 一篇、clusterProfiler 一篇、生存分析一篇。工具学完了，面对一个真实项目还是不知道从哪里开始。这个专栏换一种方式：用 一个完整项目 从头到尾走一遍，每一章推进一步，最终交付一份可投稿级别的分析。

专栏定位

本专栏全程使用 TCGA-LIHC（The Cancer Genome Atlas — Liver Hepatocellular Carcinoma）数据集。选它的原因是：样本量够大、数据类型齐全、临床信息丰富、文献多可以对照。

属性	数值
肿瘤样本	371
正常样本	50
数据类型	RNA-seq (HTSeq counts) + 体细胞突变 (MAF) + 临床
来源	GDC Data Portal
访问方式	TCGAbiolinks / GDC API / Xena Browser

RNA-seq 部分提供 HTSeq raw counts，可以直接用 DESeq2 做差异分析；突变数据是 MAF 格式，可以用 maftools 做突变景观；临床数据包含生存时间、分期、分级等字段，可以做生存分析和多变量建模。

开始本专栏之前，建议先完成以下内容：

如果你已经能独立跑通一个 DESeq2 差异分析 + clusterProfiler 富集分析的流程，就可以直接开始。

骨架已搭建，正文待填充。

静态文件

手册 HTML / PDF 已在后台预生成，点击后直接下载网站静态资源。