BioF3 ML 专栏全套上线 — 12 章 + 7 工具 + 4 套真实数据
· 阅读需 6 分钟
把 ML 教程做成"打开就能跑"的专栏 — 这件事 BioF3 在过去两周一口气做完了:12 章正文 + 7 个在线工具 + 4 套真实公开数据 + 全部 5 死规则达标。这篇博客讲 ML 专栏现在能干什么、跟纯文档教程有什么不同、谁会直接受益。
专栏不是"再讲一遍 sklearn"
现成的 ML 教程在网上不缺,但生信场景下大多数都有同一个问题:模型在 iris / wine 这类玩具数据上漂亮,在 TCGA / 单细胞上立刻崩。原因不在算法,在数据本身的性质 — 高维(p >> n)、含批次效应、含删失、量纲跨基因差异巨大。
BioF3 的 ML 专栏全程用 4 套真实公开数据:
| 数据集 | 规模 | 用在哪 |
|---|---|---|
| TCGA-LIHC | 374 样本 × 60K 基因 + OS | module02 - 06 / 08 / 10 / 11 |
| TCGA-BRCA(PAM50) | 1100 样本 × 5 类亚型 | module04 多分类 / 07 |
| PBMC 3k | 2700 cells × 32K 基因 | module09 |
| airway | 8 样本 × 64K 基因 | module02 demo |
写脚本直接 Rscript scripts/_dev/ml-data-prepare.sh 一键全下,目录约定 ~/biof3-data/ 在专栏里贯穿。禁止模拟数据:matrix(rnorm()) 训出来的"分类器"在论文里没人接受。