跳到主要内容

BioF3 ML 专栏全套上线 — 12 章 + 7 工具 + 4 套真实数据

· 阅读需 6 分钟
BioF3 团队
生物信息学数据分析专家

把 ML 教程做成"打开就能跑"的专栏 — 这件事 BioF3 在过去两周一口气做完了:12 章正文 + 7 个在线工具 + 4 套真实公开数据 + 全部 5 死规则达标。这篇博客讲 ML 专栏现在能干什么、跟纯文档教程有什么不同、谁会直接受益。

专栏不是"再讲一遍 sklearn"

现成的 ML 教程在网上不缺,但生信场景下大多数都有同一个问题:模型在 iris / wine 这类玩具数据上漂亮,在 TCGA / 单细胞上立刻崩。原因不在算法,在数据本身的性质 — 高维(p >> n)、含批次效应、含删失、量纲跨基因差异巨大。

BioF3 的 ML 专栏全程用 4 套真实公开数据:

数据集规模用在哪
TCGA-LIHC374 样本 × 60K 基因 + OSmodule02 - 06 / 08 / 10 / 11
TCGA-BRCA(PAM50)1100 样本 × 5 类亚型module04 多分类 / 07
PBMC 3k2700 cells × 32K 基因module09
airway8 样本 × 64K 基因module02 demo

写脚本直接 Rscript scripts/_dev/ml-data-prepare.sh 一键全下,目录约定 ~/biof3-data/ 在专栏里贯穿。禁止模拟数据:matrix(rnorm()) 训出来的"分类器"在论文里没人接受。

12 章一次性写完

章节主题配套工具
overview概览 + 5 大类问题
01数据集与任务定义
02特征矩阵构建(VST + HVG + split)
03特征选择 5 法对比ml-feature-select
04经典分类(LR/SVM/RF/XGBoost)ml-classifier
05模型评估(ROC/PR/Calibration/DCA)(并入 04 工具)
06预后建模(LASSO Cox / RSF)rsf-survival + lasso-cox
07无监督亚型(ConsensusClusterPlus)consensus-cluster
08深度学习入门(PyTorch Autoencoder)ml-autoencoder
09单细胞 ML(scVI 整合)ml-scvi-annotate
10SHAP 可解释性shap-explain
11模型上线(Plumber + FastAPI)

总共 ~2200 行正文,8 个动手章 1:1 配 BioF3 在线工具 — 教程读完就能在线跑同款流程,不用本地装 R 环境。

7 个工具,5 死规则全过

每个工具上线前都过 5 死规则:真实数据 / 双格式输出(PNG+PDF) / 无未渲染 token / 无 placeholder 文字 / 公开 demo HTTP 200

R 后端 5 个(走 r-server tool-scripts/):

  • ml-feature-select — variance / Wilcoxon / mRMR / Boruta / RFE 5 法 + 韦恩图共识(端到端 30 秒)
  • ml-classifier — LR / SVM / RF / XGBoost 4 算法 + 8 SCI 图(端到端 27 秒,demo AUC=1.000)
  • rsf-survival — RandomForest 生存树 + 时间 ROC + VIMP + 风险三联图(端到端 27 秒)
  • shap-explain — 从上游 ml-classifier jobId 直接导入模型,iml KernelSHAP 适配 4 算法
  • consensus-cluster — ConsensusClusterPlus + Δ(area) 选 k + Silhouette + ARI(端到端 15 秒)

Python 后端 2 个(走 py-server task-scripts.js):

  • ml-autoencoder — PyTorch vanilla AE,200 samples × 150 features 端到端 ~10 秒
  • ml-scvi-annotate — scvi-tools VAE + 负二项 + UMAP + Leiden,600 cells × 2000 genes 端到端 ~50 秒

每个工具都自带公开 demo,未登录用户也能看到完整结果报告。已登录用户可以上传自己的数据复跑。

工具间的"数据接力"

BioF3 工具不是孤立的 — 跑完一个,产出可以直接喂下一个:

ml01 数据准备 (脚本)
↓ derived/expression_hvg5000.csv + labels_binary.csv
ml-feature-select (在线工具)
↓ consensus_top.csv (top 200 共识基因)
ml-classifier (在线工具)
↓ jobId + model_lr.rds / model_rf.rds / model_xgb.rds
shap-explain (在线工具,粘贴 jobId)
↓ shap_global_summary_*.csv (top 5 features by SHAP)
km-survival (已有工具)
↓ 验证 top features 的预后差异

写论文时 4 张 figure 全部从工具直接出 PDF 矢量,Methods 段每个工具都给现成模板可以拷贝替换。

跟 BioF3 之前的工具有什么关系

BioF3 之前 11 个工具(deseq2 / go-kegg / gsea / km-survival / lasso-cox / cellchat / wgcna / complexheatmap / maftools-mutation / seurat-standard / bindea-immune)定位是经典统计 + 探索性分析;ML 这 7 个工具定位是预测 + 决策。两组工具配合:

  • 探索阶段:DESeq2 找差异 → GSEA 看通路 → ComplexHeatmap 看模式
  • 决策阶段:ml-feature-select 选 signature → ml-classifier 训模型 → shap-explain 解释 → 投稿

不是要替代经典统计,而是给"我想做预测但不知道怎么开始"的用户一条完整路径。

哪些用户直接受益

写硕博论文有 ML 章节但不想从零搭环境的 — 工具 + 教程 1:1 配套,直接出 PDF 图

临床 / 实验组想跑预后 signature 的 — rsf-survival + km-survival + shap-explain 一条龙,不用学 caret API

审稿被要求"加个 ML 验证"的 — 上传同一份数据到 ml-classifier,报告里 ROC + Calibration + DCA + Bootstrap CI 四件套生成,Methods 段直接拷贝

想吃 single-cell 红利但 scvi 装不上的 — ml-scvi-annotate 在线 GPU(需要时)+ 公开 demo 看流程

⚠️ 不直接受益的场景 — 已经在 nf-core / Snakemake 内 production pipeline 的用户,Web 工具不是替代品。BioF3 工具更适合探索期 + 教学场景。

工程量

12 章正文 + 7 工具 + 13 个配套脚本 + py-server tools-shim 改造 + ali nginx /api/py/ 反代 + 飞书 9 次 milestone 通知 + 修了 11 个真 bug,合计大约 2 周连续工作量。所有改动都过 5 死规则 + 部署上线 + 飞书追踪

这是 BioF3 单人开发模式下"通过共享底层 + 工具复用快速横扩"的样本案例。

入口

下次专栏:多组学整合(iCluster / MOFA 等),预计 2026-06。