跳到主要内容

组学项目实战教程

现有专栏按工具组织——DESeq2 一篇、clusterProfiler 一篇、生存分析一篇。工具学完了,面对一个真实项目还是不知道从哪里开始。这个专栏换一种方式:用 一个完整项目 从头到尾走一遍,每一章推进一步,最终交付一份可投稿级别的分析。

专栏定位

维度工具专栏本专栏
组织方式按工具/方法按项目阶段
数据每章用不同示例数据全程用同一份真实数据
目标学会某个工具学会"做完一个项目"
适合阶段入门 → 单点深入已有基础 → 串联实战

10 篇规划表

章节主题动手?预计时间
01项目选题:从临床问题到分析问题20 min
02数据获取:从 GDC 拿到合规数据30 min
03数据探索:拿到新数据先看什么40 min
04分析路线设计:先用便宜的看大方向25 min
05主线分析:跑通最重要那一条60 min
06验证与对比:怎么知道结果不是 artifact40 min
07整合解读:把结果翻译成生物学语言35 min
08图表组织:figure 怎么排版讲故事30 min
09Methods 撰写:审稿人最看的细节25 min
10数据与代码归档:可复现交付清单30 min

数据集介绍:TCGA-LIHC

本专栏全程使用 TCGA-LIHC(The Cancer Genome Atlas — Liver Hepatocellular Carcinoma)数据集。选它的原因是:样本量够大、数据类型齐全、临床信息丰富、文献多可以对照。

属性数值
肿瘤样本371
正常样本50
数据类型RNA-seq (HTSeq counts) + 体细胞突变 (MAF) + 临床
来源GDC Data Portal
访问方式TCGAbiolinks / GDC API / Xena Browser

RNA-seq 部分提供 HTSeq raw counts,可以直接用 DESeq2 做差异分析;突变数据是 MAF 格式,可以用 maftools 做突变景观;临床数据包含生存时间、分期、分级等字段,可以做生存分析和多变量建模。

前置知识

开始本专栏之前,建议先完成以下内容:

如果你已经能独立跑通一个 DESeq2 差异分析 + clusterProfiler 富集分析的流程,就可以直接开始。

本章状态

骨架已搭建,正文待填充。

AI 陪学

让 AI 陪我学这一篇

AI 会读这篇文章后给你 3-5 步学习计划, 逐步陪你学完,最后出 1-3 道题验证你掌握得怎么样。 登录后 AI 才能记住你的进度。

静态文件

离线资料下载

手册 HTML / PDF 已在后台预生成,点击后直接下载网站静态资源。