跳到主要内容

机器学习生物学应用教程

ML 方法不是万能,但它很擅长在高维、有标签、需要预测的生信问题里给经典统计补位。本专栏把 ML 落到真实组学数据上,讲清楚什么时候用、怎么用、用错了会怎样。

专栏定位

维度经典统计专栏(差异分析 / 富集 / 生存)本专栏
核心问题"组间有没有差别""能不能预测"
假设检验p 值 / FDR交叉验证 / 测试集 AUC
维度处理单个基因独立检验高维 + 特征交互
适合阶段探索期 / 描述统计决策期 / 临床落地

12 篇规划表

章节主题动手语言数据
01数据集与任务定义(4 套真实数据)R+PyLIHC / BRCA / PBMC / airway
02特征矩阵构建(VST / batch / 类平衡)RTCGA-LIHC
03特征选择(方差 / 单因素 / mRMR / Boruta / RFE)RTCGA-LIHC
04经典分类(LR / SVM / RF / XGBoost)RTCGA-LIHC
05模型评估(CV / ROC / PR / Calibration / DCA)RTCGA-LIHC
06预后建模(LASSO / Ridge / RSF / XGBoost-Cox)RTCGA-LIHC OS
07无监督亚型(ConsensusCluster / NMF / iCluster)RTCGA-BRCA PAM50
08深度学习入门:Autoencoder 表征PythonTCGA-LIHC
09单细胞 ML:scVI 整合 + scANVI 注释PythonPBMC 3k
10可解释性(SHAP / DeepSHAP / Permutation)RLIHC + 04 模型
11上线(模型卡 / 序列化 / Plumber+FastAPI)R+Py06 模型

为什么这条主线值得学

ML 在生信里有几个"看似漂亮但其实错"的常见坑,本专栏每章都会显式标注:

  • ❌ 训练集 ROC = 0.99 不是好结果,是过拟合
  • ❌ 用全样本做特征选择 + 训练 + 评估 → signature inflation,效果虚高
  • ❌ 选 padj < 0.05 的差异基因当 ML 特征 → p 值 hacking 风险
  • ❌ 在 train / test 上各跑一遍 PCA → 必须 train 上 fit,test 上 transform
  • ❌ Univariate Cox 显著基因丢进 multivariate Cox → co-linearity,系数不可信

学完之后你能区分"漂亮的 ML 文章"和"靠谱的 ML 工作"。

真实数据集白名单

本专栏所有动手章节只用以下 5 套真实公开数据,禁止模拟数据:

数据集来源规模用在哪
TCGA-LIHCTCGAbiolinks 下载374 样本02-06 / 08 / 10 / 11
TCGA-BRCA(PAM50)UCSC Xena1100 样本04 多分类 / 07 亚型
PBMC 3k10x Genomics2700 cells09 单细胞 ML
airwayBioconductor 包8 样本02 快速 demo
MSigDB Hallmarkmsigdbr50 gene sets02 附加

在线工具

本专栏配套 7 个 ML 在线工具(免环境跑):

工具对应章节后端
ml-feature-select03R
ml-classifier04 + 05R
rsf-survival06R
consensus-cluster07R
ml-autoencoder08Python
ml-scvi-annotate09Python
shap-explain10R

(已存在的 lasso-cox 工具继续覆盖 06 章 LASSO Cox baseline。)

前置知识

如果你已经能独立跑通 DESeq2 → clusterProfiler → KM 三步,就可以从本专栏 02 章开始。

本章状态

✅ Wave 1 完成(2026-05-26)。 ✅ Wave 3 校订(2026-05-27):W2 工具已全部上线,本章规划表的"在线工具"列已可点。后续 Wave 4 会补 08/09 章 Python 工具(ml-autoencoder + ml-scvi-annotate)。

AI 陪学

让 AI 陪我学这一篇

AI 会读这篇文章后给你 3-5 步学习计划, 逐步陪你学完,最后出 1-3 道题验证你掌握得怎么样。 登录后 AI 才能记住你的进度。

静态文件

离线资料下载

手册 HTML / PDF 已在后台预生成,点击后直接下载网站静态资源。