10 scATAC-seq 分析
scATAC-seq 测的是单细胞层面的染色质可及性:哪些基因组区域在这个细胞里是"打开的",通常对应启动子、增强子等顺式调控元件。和 scRNA-seq 的一个直接区别是稀疏得多——每个细胞只有几千到几万个 fragment,落在 peak 上的更少——所以工具链另成一套。
本节用 10x Genomics 的 PBMC scATAC 10k 数据演示两套主流方案:ArchR(全流程、适合大数据)和 Signac(和 Seurat 无缝衔接,适合已经熟 Seurat 的用户)。
分析流水线的关键差异
| 步骤 | scRNA-seq | scATAC-seq |
|---|---|---|
| 原始数据 | counts matrix | fragment file(.tsv.gz) |
| 特征 | 基因 | peak 或 tile |
| 主降维 | PCA | TF-IDF + SVD(称 LSI) |
| 聚类 | 基于 PCA 的 KNN 图 | 基于 LSI 的 KNN 图 |
| 标志特征 | 差异基因 | 差异 peak / motif |
大多数思路是通的:归一化 → 降维 → 找邻居 → 聚类 → 注释。差别在"归一化/降维怎么做"(TF-IDF + SVD)和"特征是什么"(peak 而非基因)。