超过10000组GEO转录组数据再利用平台——Gemma数据库|geo|元数据|探针|转录组

撰文 | 小甜点
责编 | 雪月

目前在公共数据库中有着大量的转录组数据，但是却很再次利用它们，因为存在一些问题，比如非结构化数据集元数据、不一致的数据处理、质量控制以及跨微阵列技术的探针基因映射不一致等，导致在使用之前都需要重新进行大量的数据处理才可以使用。

截止2020年6月，NCBI的基因表达综合（Gene Expression Omnibus ，GEO）有97379个转录组相关研究，其中71233（23%）个是由人、小鼠、大鼠产生，这些资源为很多的研究提供了基础，比如，预测基因表达的模型生成等。虽然GEO中的数据很多，但是在分析使用前必须要花费大量的精力去重新整理和处理，因为GEO一开始只是为了对数据进行存储，它的数据模型较简单，在存储的时候也很简单，大致分为三个方面的问题：元数据，微阵列平台探针注释和表达数据本身。

针对元数据来说，包括对研究的简短描述和以匿名的方式命名的样本，导致某些数据集中样本信息有所不足；对于微阵列平台探针注释，不同制造商将探针与基因相关联的方法不同，数据集间的可比性就会降低，且GEO未收录所有的探针序列，所以也无法验证探针与基因的映射；对于表达数据本身，除了提交者可能执行的操作外，GEO的表达数据是未经过质量控制的。因此，在进行数据分析之前，用户必须要对原始数据进行重新处理和分析，而不是使用已有的或者处理好的数据。

由此，Gemma生物信息学系统（The Gemma bioinformatics system）诞生了，它主要由策展的转录组数据集数据库、分析软件、Web界面和Web服务等组成，该系统会提供Gemma最新的存储数据，数据处理和分析流程，策展指南和软件功能的更新等。截止2020年6月，Gemma手动策展的数据集已有10811个（人、小鼠和大鼠），样本有超过395000个，策展的转录平台也有数百个（微阵列和RNA测序），数据集的主题由来自十二个本体的10215个不同关系组成，总共54316个主题注释（平均主题、数据集=5.2）。用户可以通过Gemma网站、RESTful服务和R包访问策展数据和差异表达分析。

从NCBI Gene Expression Omnibus（GEO）到Gemma数据库的数据流示意图

使用Gemma，研究人员不需要再对转录组数据集进行重新处理和分析，因为Gemma系统可以解决上述GEO存在的局限性。对于微阵列平台，重新映射了关系；通过质量控制检查、校正去除异常值、表达数据的一致性处理、去除重复样本等解决了数据本身存在的问题；将不能使用的数据集纳入黑名单，从而节省时间和精力；还可以使用Gemma的用户界面对基础基因表达数据进行其他探索和检查。

Gemma的功能，现在主要是允许访问GEO中数据集的数据和分析结果的实用程序，对于其他分析功能，如共表达和元分析等则正在重新设计和修改。除此之外，Gemma在数据存储上只有GEO的部分数据，因为数据的生成需要的策展资源不够。目前，Gemma将处理精力集中在与神经发育、神经、神经精神疾病有关的啮齿动物和人类数据集上，Gemma也将继续添加其他主题的数据，并对用户的特定需求做出响应。

对于Gemma未来的一些功能包括：（1）进行越来越多的具有生物复制的细胞类型特异性研究；（2）加强Gemma基因信息页面上差异表达的显示和解释；（3）为提高差异表达的基因信息列表的可用性的可行性，进行本体推理的摘要技术的研究。

Gemma数据库由来自British Columbia大学的Paul Pavlidis团队建立，相关文献来自bioRxiv平台，题为Curation of over 10,000 transcriptomic studies to enable data reuse。