01 实践数据集与数据获取
01 实践数据集与数据获取
BioF3 的教程需要配套真实数据,不能只依赖手造数据和示意代码。本页整理适合教学复现的公开测试数据集,并给出建议使用场景、下载命令和数据规模。
所有数据都来自公开资源,建议下载到项目外的本地数据目录,例如 ~/biof3-data,不要直接提交到网站仓库。
mkdir -p ~/biof3-data
cd ~/biof3-data
推荐数据集
| 数据集 | 适用章节 | 类型 | 大小 | 用途 |
|---|---|---|---|---|
| PBMC 3k | 02-06 | scRNA-seq | 约 7.4 MB | 入门、质控、聚类、注释、差异分析 |
| 5k PBMC CITE-seq | 07 | RNA + ADT | 约 37 MB | 多模态分析、WNN、蛋白标志物 |
| PBMC scATAC 10k | 10 | scATAC-seq | 约 162 MB | 染色质可及性、LSI、peak matrix |
| Visium Breast Cancer | 09 | 空间转录组 | 约 74 MB | 空间表达、组织切片可视化 |
PBMC 3k
PBMC 3k 是 10x Genomics 公开的外周血单个核细胞数据,也是 Seurat 和 Scanpy 入门教程常用数据。它体积小、下载快,适合本教程前半部分的大多数练习。
适用章节:
底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:
mkdir -p ~/biof3-data/pbmc3k
cd ~/biof3-data/pbmc3k
curl -L -O https://cf.10xgenomics.com/samples/cell-exp/1.1.0/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz
tar -xzf pbmc3k_filtered_gene_bc_matrices.tar.gz
Seurat 读取示例:
library(Seurat)
data_dir <- "~/biof3-data/pbmc3k/filtered_gene_bc_matrices/hg19"
counts <- Read10X(data.dir = data_dir)
pbmc <- CreateSeuratObject(counts = counts, project = "PBMC3K")
pbmc
PBMC 3k 真实图表脚本
本节配套脚本会自动下载 PBMC 3k 数据,读取 10x Genomics 的真实 matrix.mtx、genes.tsv 和 barcodes.tsv,并生成本教程使用的图表。
运行方式:
Rscript scripts/module01_complete_sci.R
默认数据目录:
~/biof3-data/pbmc3k
默认图片输出目录:
static/img/tutorial/module01/
脚本生成的图表分为两类:
| 图片 | 来源 | 说明 |
|---|---|---|
01-gene-expression-bar.png |
PBMC 3k 真实矩阵 | 总 UMI counts 最高的基因 |
02-cell-counts-distribution.png |
PBMC 3k 真实矩阵 | 每个细胞的 total UMI counts 分布 |
03-gene-mean-distribution.png |
PBMC 3k 真实矩阵 | 每个基因的平均表达分布 |
04-expression-matrix-heatmap.png |
PBMC 3k 真实矩阵 | 真实表达矩阵子集热图 |
05-qc-scatter.png |
PBMC 3k 真实矩阵 | total counts、detected genes 和 mitochondrial percentage |
06-database-comparison.png |
概念图 | 公共数据源使用场景对比 |
07-workflow.png |
概念图 | 公开数据可追溯分析流程 |
08-qc-combined.png |
PBMC 3k 真实矩阵 | PBMC 3k 组合 QC 指标 |
后续章节的图表也会逐步按这个标准整理:优先使用真实公开数据;如果是概念图,会明确标注为概念图,不和真实分析结果混在一起。
5k PBMC CITE-seq
5k PBMC CITE-seq 数据同时包含 RNA 表达矩阵和抗体衍生标签(ADT)矩阵,适合讲解多模态单细胞分析。
适用章节:
底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:
mkdir -p ~/biof3-data/pbmc5k-citeseq
cd ~/biof3-data/pbmc5k-citeseq
curl -L -O https://cf.10xgenomics.com/samples/cell-exp/3.1.0/5k_pbmc_protein_v3_nextgem/5k_pbmc_protein_v3_nextgem_filtered_feature_bc_matrix.tar.gz
tar -xzf 5k_pbmc_protein_v3_nextgem_filtered_feature_bc_matrix.tar.gz
Seurat 读取示例:
library(Seurat)
data_dir <- "~/biof3-data/pbmc5k-citeseq/filtered_feature_bc_matrix"
counts <- Read10X(data.dir = data_dir)
pbmc <- CreateSeuratObject(counts = counts$`Gene Expression`, project = "PBMC5K_CITE")
pbmc[["ADT"]] <- CreateAssayObject(counts = counts$`Antibody Capture`)
pbmc
Visium Breast Cancer
Visium Breast Cancer 是 10x Genomics 的空间转录组数据,适合练习组织切片上的空间表达可视化和空间邻域分析。
适用章节:
该数据体积较大,当前不放入网站仓库。底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:
mkdir -p ~/biof3-data/visium-breast-cancer
cd ~/biof3-data/visium-breast-cancer
curl -L -O https://cf.10xgenomics.com/samples/spatial-exp/1.1.0/V1_Breast_Cancer_Block_A_Section_1/V1_Breast_Cancer_Block_A_Section_1_filtered_feature_bc_matrix.tar.gz
tar -xzf V1_Breast_Cancer_Block_A_Section_1_filtered_feature_bc_matrix.tar.gz
完整空间分析通常还需要组织切片图片和 spatial/ 坐标文件。后续补强09 时,会把矩阵、图片、坐标和 Seurat/Scanpy 读取流程整理成完整示例。
PBMC scATAC 10k
PBMC scATAC 10k 是 10x Genomics 的单细胞 ATAC-seq 数据,适合练习 peak matrix、TF-IDF、SVD/LSI 和染色质可及性分析。
适用章节:
该数据体积较大,当前不放入网站仓库。底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:
mkdir -p ~/biof3-data/pbmc10k-scatac
cd ~/biof3-data/pbmc10k-scatac
curl -L -O https://cf.10xgenomics.com/samples/cell-atac/2.1.0/10k_pbmc_ATACv2_nextgem_Chromium_Controller/10k_pbmc_ATACv2_nextgem_Chromium_Controller_filtered_peak_bc_matrix.h5
使用建议
- 初学者先下载 PBMC 3k,优先完成01-03。
- 做多模态分析时再下载 5k PBMC CITE-seq。
- 空间转录组和 scATAC 数据体积更大,建议在理解标准 scRNA-seq 流程后再使用。
- 网站仓库只保存教程、脚本和小型示例,不保存大型原始数据。