BioF3 ML 专栏全套上线 — 12 章 + 7 工具 + 4 套真实数据

2026年5月28日 · 阅读需 6 分钟

生物信息学数据分析专家

把 ML 教程做成"打开就能跑"的专栏 — 这件事 BioF3 在过去两周一口气做完了:12 章正文 + 7 个在线工具 + 4 套真实公开数据 + 全部 5 死规则达标。这篇博客讲 ML 专栏现在能干什么、跟纯文档教程有什么不同、谁会直接受益。

专栏不是"再讲一遍 sklearn"

现成的 ML 教程在网上不缺,但生信场景下大多数都有同一个问题:模型在 iris / wine 这类玩具数据上漂亮,在 TCGA / 单细胞上立刻崩。原因不在算法,在数据本身的性质 — 高维(p >> n)、含批次效应、含删失、量纲跨基因差异巨大。

BioF3 的 ML 专栏全程用 4 套真实公开数据:

数据集	规模	用在哪
TCGA-LIHC	374 样本 × 60K 基因 + OS	module02 - 06 / 08 / 10 / 11
TCGA-BRCA(PAM50)	1100 样本 × 5 类亚型	module04 多分类 / 07
PBMC 3k	2700 cells × 32K 基因	module09
airway	8 样本 × 64K 基因	module02 demo

写脚本直接 Rscript scripts/_dev/ml-data-prepare.sh 一键全下,目录约定 ~/biof3-data/ 在专栏里贯穿。禁止模拟数据:matrix(rnorm()) 训出来的"分类器"在论文里没人接受。

12 章一次性写完

章节	主题	配套工具
overview	概览 + 5 大类问题	—
01	数据集与任务定义	—
02	特征矩阵构建(VST + HVG + split)	—
03	特征选择 5 法对比	ml-feature-select
04	经典分类(LR/SVM/RF/XGBoost)	ml-classifier
05	模型评估(ROC/PR/Calibration/DCA)	(并入 04 工具)
06	预后建模(LASSO Cox / RSF)	rsf-survival + lasso-cox
07	无监督亚型(ConsensusClusterPlus)	consensus-cluster
08	深度学习入门(PyTorch Autoencoder)	ml-autoencoder
09	单细胞 ML(scVI 整合)	ml-scvi-annotate
10	SHAP 可解释性	shap-explain
11	模型上线(Plumber + FastAPI)	—

总共 ~2200 行正文,8 个动手章 1:1 配 BioF3 在线工具 — 教程读完就能在线跑同款流程,不用本地装 R 环境。

7 个工具,5 死规则全过

每个工具上线前都过 5 死规则:真实数据 / 双格式输出(PNG+PDF) / 无未渲染 token / 无 placeholder 文字 / 公开 demo HTTP 200。

R 后端 5 个(走 r-server tool-scripts/):

ml-feature-select — variance / Wilcoxon / mRMR / Boruta / RFE 5 法 + 韦恩图共识(端到端 30 秒)
ml-classifier — LR / SVM / RF / XGBoost 4 算法 + 8 SCI 图(端到端 27 秒,demo AUC=1.000)
rsf-survival — RandomForest 生存树 + 时间 ROC + VIMP + 风险三联图(端到端 27 秒)
shap-explain — 从上游 ml-classifier jobId 直接导入模型,iml KernelSHAP 适配 4 算法
consensus-cluster — ConsensusClusterPlus + Δ(area) 选 k + Silhouette + ARI(端到端 15 秒)

Python 后端 2 个(走 py-server task-scripts.js):

ml-autoencoder — PyTorch vanilla AE,200 samples × 150 features 端到端 ~10 秒
ml-scvi-annotate — scvi-tools VAE + 负二项 + UMAP + Leiden,600 cells × 2000 genes 端到端 ~50 秒

每个工具都自带公开 demo,未登录用户也能看到完整结果报告。已登录用户可以上传自己的数据复跑。

工具间的"数据接力"

BioF3 工具不是孤立的 — 跑完一个,产出可以直接喂下一个:

ml01 数据准备 (脚本)
  ↓ derived/expression_hvg5000.csv + labels_binary.csv
ml-feature-select (在线工具)
  ↓ consensus_top.csv (top 200 共识基因)
ml-classifier (在线工具)
  ↓ jobId + model_lr.rds / model_rf.rds / model_xgb.rds
shap-explain (在线工具,粘贴 jobId)
  ↓ shap_global_summary_*.csv (top 5 features by SHAP)
km-survival (已有工具)
  ↓ 验证 top features 的预后差异

写论文时 4 张 figure 全部从工具直接出 PDF 矢量,Methods 段每个工具都给现成模板可以拷贝替换。

跟 BioF3 之前的工具有什么关系

BioF3 之前 11 个工具(deseq2 / go-kegg / gsea / km-survival / lasso-cox / cellchat / wgcna / complexheatmap / maftools-mutation / seurat-standard / bindea-immune)定位是经典统计 + 探索性分析;ML 这 7 个工具定位是预测 + 决策。两组工具配合:

探索阶段:DESeq2 找差异 → GSEA 看通路 → ComplexHeatmap 看模式
决策阶段:ml-feature-select 选 signature → ml-classifier 训模型 → shap-explain 解释 → 投稿

不是要替代经典统计,而是给"我想做预测但不知道怎么开始"的用户一条完整路径。

哪些用户直接受益

✅ 写硕博论文有 ML 章节但不想从零搭环境的 — 工具 + 教程 1:1 配套,直接出 PDF 图

✅ 临床 / 实验组想跑预后 signature 的 — rsf-survival + km-survival + shap-explain 一条龙,不用学 caret API

✅ 审稿被要求"加个 ML 验证"的 — 上传同一份数据到 ml-classifier,报告里 ROC + Calibration + DCA + Bootstrap CI 四件套生成,Methods 段直接拷贝

✅ 想吃 single-cell 红利但 scvi 装不上的 — ml-scvi-annotate 在线 GPU(需要时)+ 公开 demo 看流程

⚠️ 不直接受益的场景 — 已经在 nf-core / Snakemake 内 production pipeline 的用户,Web 工具不是替代品。BioF3 工具更适合探索期 + 教学场景。

工程量

12 章正文 + 7 工具 + 13 个配套脚本 + py-server tools-shim 改造 + ali nginx /api/py/ 反代 + 飞书 9 次 milestone 通知 + 修了 11 个真 bug,合计大约 2 周连续工作量。所有改动都过 5 死规则 + 部署上线 + 飞书追踪。

这是 BioF3 单人开发模式下"通过共享底层 + 工具复用快速横扩"的样本案例。

入口

教程: /docs/machine-learning/overview
工具: /tools/ 选"机器学习"分类
数据: 教程 module01 一键下载脚本

下次专栏:多组学整合(iCluster / MOFA 等),预计 2026-06。

专栏不是"再讲一遍 sklearn"​

12 章一次性写完​

7 个工具,5 死规则全过​

工具间的"数据接力"​

跟 BioF3 之前的工具有什么关系​

哪些用户直接受益​

工程量​

入口​