BioF3 组学数据分析

公共数据库与数据检索

导出日期:2026年5月11日

公共数据库与数据检索

组学分析的第二个问题是:从哪里找到可信的数据,并确认它是否适合自己的问题?

本章介绍常用公共数据库 GEO、SRA、CELLxGENE、Human Cell Atlas 和 Expression Atlas 分别适合什么数据,以及如何根据 accession 编号追踪数据来源。

AI 工具如何辅助数据检索,详见 AI 辅助编程与智能体工具

学习目标

完成本章后,你应该能够:

公共数据库怎么选

不同数据库解决不同问题。先判断你需要的是原始测序数据、处理后的表达矩阵,还是可交互浏览的注释数据。

需求 优先看哪里
找论文配套表达矩阵 GEO
下载原始 FASTQ SRA / ENA
浏览单细胞注释数据 CELLxGENE
找人类细胞图谱项目数据 HCA Data Portal
查基因在组织/细胞中的表达 Expression Atlas

常见 accession 编号

公开数据通常通过 accession 编号追踪。

编号 常见含义 示例
GSE GEO Series,一个研究或数据集 GSE12345
GSM GEO Sample,一个样本 GSM123456
SRP SRA Study SRP123456
SRS SRA Sample SRS123456
SRX SRA Experiment SRX123456
SRR SRA Run,常用于下载 reads SRR1234567

分析前要确认编号层级。很多新手拿到 GSE 后直接找 FASTQ,会发现真正下载 reads 需要进一步找到对应的 SRR

主要数据库

GEO

GEO 是 NCBI 维护的功能基因组学数据库,常见于论文数据提交。它可以包含表达矩阵、样本信息、平台信息和补充文件。

网址:https://www.ncbi.nlm.nih.gov/geo/

适合:

检索建议:

关键词 + 物种 + 技术 + 组织/疾病

例如:

single cell RNA-seq human liver fibrosis

SRA

SRA 是 NCBI 的原始测序数据归档库。需要 FASTQ 时通常会用到它。

网址:https://www.ncbi.nlm.nih.gov/sra/

下载常用 SRA Toolkit:

conda install -c bioconda sra-tools

prefetch SRR1234567
fasterq-dump SRR1234567 --split-files -O data/raw/

注意:

CELLxGENE

CELLxGENE Discover 提供许多可浏览的单细胞数据集,通常可以在线查看 UMAP、细胞类型和基因表达。

网址:https://cellxgene.cziscience.com/

适合:

使用建议:

Human Cell Atlas

Human Cell Atlas 关注人类细胞参考图谱。HCA Data Portal 提供社区生成的多组学开放数据。

网址:https://data.humancellatlas.org/

适合:

Expression Atlas / Single Cell Expression Atlas

EMBL-EBI 的 Expression Atlas 和 Single Cell Expression Atlas 提供基因表达查询和单细胞表达浏览。

网址:https://www.ebi.ac.uk/gxa/

适合:

下一步

继续学习:

参考资源