跳到主要内容

01 实践数据集与数据获取

BioF3 的教程需要配套真实数据,不能只依赖手造数据和示意代码。本页整理适合教学复现的公开测试数据集,并给出建议使用场景、下载命令和数据规模。

所有数据都来自公开资源,建议下载到项目外的本地数据目录,例如 ~/biof3-data,不要直接提交到网站仓库。

mkdir -p ~/biof3-data
cd ~/biof3-data

推荐数据集

数据集适用章节类型大小用途
PBMC 3k02-06scRNA-seq约 7.4 MB入门、质控、聚类、注释、差异分析
5k PBMC CITE-seq07RNA + ADT约 37 MB多模态分析、WNN、蛋白标志物
PBMC scATAC 10k10scATAC-seq约 162 MB染色质可及性、LSI、peak matrix
Visium Breast Cancer09空间转录组约 74 MB空间表达、组织切片可视化

PBMC 3k

PBMC 3k 是 10x Genomics 公开的外周血单个核细胞数据,也是 Seurat 和 Scanpy 入门教程常用数据。它体积小、下载快,适合本教程前半部分的大多数练习。

适用章节:

底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:

mkdir -p ~/biof3-data/pbmc3k
cd ~/biof3-data/pbmc3k

curl -L -O https://cf.10xgenomics.com/samples/cell-exp/1.1.0/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz
tar -xzf pbmc3k_filtered_gene_bc_matrices.tar.gz

Seurat 读取示例:

library(Seurat)

data_dir <- "~/biof3-data/pbmc3k/filtered_gene_bc_matrices/hg19"
counts <- Read10X(data.dir = data_dir)
pbmc <- CreateSeuratObject(counts = counts, project = "PBMC3K")
pbmc

PBMC 3k 真实图表脚本

本节配套脚本会自动下载 PBMC 3k 数据,读取 10x Genomics 的真实 matrix.mtxgenes.tsvbarcodes.tsv,并生成本教程使用的图表。

运行方式:

Rscript scripts/single-cell/sc01_data_sci.R

默认数据目录:

~/biof3-data/pbmc3k

默认图片输出目录:

static/img/tutorial/single-cell/module01/

脚本生成的图表分为两类:

图片来源说明
01-gene-expression-bar.pngPBMC 3k 真实矩阵总 UMI counts 最高的基因
02-cell-counts-distribution.pngPBMC 3k 真实矩阵每个细胞的 total UMI counts 分布
03-gene-mean-distribution.pngPBMC 3k 真实矩阵每个基因的平均表达分布
04-expression-matrix-heatmap.pngPBMC 3k 真实矩阵真实表达矩阵子集热图
05-qc-scatter.pngPBMC 3k 真实矩阵total counts、detected genes 和 mitochondrial percentage
06-database-comparison.png概念图公共数据源使用场景对比
07-workflow.png概念图公开数据可追溯分析流程
08-qc-combined.pngPBMC 3k 真实矩阵PBMC 3k 组合 QC 指标
提示

后续章节的图表也会逐步按这个标准整理:优先使用真实公开数据;如果是概念图,会明确标注为概念图,不和真实分析结果混在一起。

5k PBMC CITE-seq

5k PBMC CITE-seq 数据同时包含 RNA 表达矩阵和抗体衍生标签(ADT)矩阵,适合讲解多模态单细胞分析。

适用章节:

底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:

mkdir -p ~/biof3-data/pbmc5k-citeseq
cd ~/biof3-data/pbmc5k-citeseq

curl -L -O https://cf.10xgenomics.com/samples/cell-exp/3.1.0/5k_pbmc_protein_v3_nextgem/5k_pbmc_protein_v3_nextgem_filtered_feature_bc_matrix.tar.gz
tar -xzf 5k_pbmc_protein_v3_nextgem_filtered_feature_bc_matrix.tar.gz

Seurat 读取示例:

library(Seurat)

data_dir <- "~/biof3-data/pbmc5k-citeseq/filtered_feature_bc_matrix"
counts <- Read10X(data.dir = data_dir)

pbmc <- CreateSeuratObject(counts = counts$`Gene Expression`, project = "PBMC5K_CITE")
pbmc[["ADT"]] <- CreateAssayObject(counts = counts$`Antibody Capture`)
pbmc

Visium Breast Cancer

Visium Breast Cancer 是 10x Genomics 的空间转录组数据,适合练习组织切片上的空间表达可视化和空间邻域分析。

适用章节:

该数据体积较大,当前不放入网站仓库。底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:

mkdir -p ~/biof3-data/visium-breast-cancer
cd ~/biof3-data/visium-breast-cancer

curl -L -O https://cf.10xgenomics.com/samples/spatial-exp/1.1.0/V1_Breast_Cancer_Block_A_Section_1/V1_Breast_Cancer_Block_A_Section_1_filtered_feature_bc_matrix.tar.gz
tar -xzf V1_Breast_Cancer_Block_A_Section_1_filtered_feature_bc_matrix.tar.gz
备注

完整空间分析通常还需要组织切片图片和 spatial/ 坐标文件。后续补强09 时,会把矩阵、图片、坐标和 Seurat/Scanpy 读取流程整理成完整示例。

PBMC scATAC 10k

PBMC scATAC 10k 是 10x Genomics 的单细胞 ATAC-seq 数据,适合练习 peak matrix、TF-IDF、SVD/LSI 和染色质可及性分析。

适用章节:

该数据体积较大,当前不放入网站仓库。底部下载资源区会直接从 10x Genomics 原始地址下载。也可以使用命令行下载:

mkdir -p ~/biof3-data/pbmc10k-scatac
cd ~/biof3-data/pbmc10k-scatac

curl -L -O https://cf.10xgenomics.com/samples/cell-atac/2.1.0/10k_pbmc_ATACv2_nextgem_Chromium_Controller/10k_pbmc_ATACv2_nextgem_Chromium_Controller_filtered_peak_bc_matrix.h5

使用建议

  1. 初学者先下载 PBMC 3k,优先完成01-03。
  2. 做多模态分析时再下载 5k PBMC CITE-seq。
  3. 空间转录组和 scATAC 数据体积更大,建议在理解标准 scRNA-seq 流程后再使用。
  4. 网站仓库只保存教程、脚本和小型示例,不保存大型原始数据。

下载资源

module01_complete_sci.R14 KB

下载图表生成脚本

pbmc3k_filtered_gene_bc_matrices.tar.gz7.3 MB

下载 PBMC 3k 数据

5k_pbmc_protein_v3_nextgem_filtered_feature_bc_matrix.tar.gz37 MB

下载 5k PBMC CITE-seq 数据

V1_Breast_Cancer_Block_A_Section_1_filtered_feature_bc_matrix.tar.gz74 MB

下载 Visium Breast Cancer 表达矩阵

10k_pbmc_ATACv2_nextgem_Chromium_Controller_filtered_peak_bc_matrix.h5162 MB

下载 PBMC scATAC 10k 数据

数据来源

静态文件

离线资料下载

手册 HTML / PDF 已在后台预生成,点击后直接下载网站静态资源。