公共数据库与数据检索
组学分析的第二个问题是:从哪里找到可信的数据,并确认它是否适合自己的问题?
本章介绍常用公共数据库 GEO、SRA、CELLxGENE、Human Cell Atlas 和 Expression Atlas 分别适合什么数据,以及如何根据 accession 编号追踪数据来源。
AI 工具如何辅助数据检索,详见 AI 辅助编程与智能体工具。
学习目标
完成本章后,你应该能够:
- 知道不同数据库分别适合解决什么问题
- 看懂常见 accession 编号的层级
- 用合适的关键词检索公共数 据
- 判断一个数据集是否适合自己的研究问题
公共数据库怎么选
不同数据库解决不同问题。先判断你需要的是原始测序数据、处理后的表达矩阵,还是可交互浏览的注释数据。
| 需求 | 优先看哪里 |
|---|---|
| 找论文配套表达矩阵 | GEO |
| 下载原始 FASTQ | SRA / ENA |
| 浏览单细胞注释数据 | CELLxGENE |
| 找人类细胞图谱项目数据 | HCA Data Portal |
| 查基因在组织/细胞中的表达 | Expression Atlas |
常见 accession 编号
公开数据通常通过 accession 编号追踪。
| 编号 | 常见含义 | 示例 |
|---|---|---|
| GSE | GEO Series,一个研究或数据集 | GSE12345 |
| GSM | GEO Sample,一个样本 | GSM123456 |
| SRP | SRA Study | SRP123456 |
| SRS | SRA Sample | SRS123456 |
| SRX | SRA Experiment | SRX123456 |
| SRR | SRA Run,常用于下载 reads | SRR1234567 |
分析前要确认编号层级。很多新手拿到 GSE 后直接找 FASTQ,会发现真正下载 reads 需要进一步找到对应的 SRR。