撰文 | 小甜点
责编 | 雪月

目前在公共数据库中有着大量的转录组数据,但是却很再次利用它们,因为存在一些问题,比如非结构化数据集元数据、不一致的数据处理、质量控制以及跨微阵列技术的探针基因映射不一致等,导致在使用之前都需要重新进行大量的数据处理才可以使用。

截止2020年6月,NCBI的基因表达综合(Gene Expression Omnibus ,GEO)有97379个转录组相关研究,其中71233(23%)个是由人、小鼠、大鼠产生,这些资源为很多的研究提供了基础,比如,预测基因表达的模型生成等。虽然GEO中的数据很多,但是在分析使用前必须要花费大量的精力去重新整理和处理,因为GEO一开始只是为了对数据进行存储,它的数据模型较简单,在存储的时候也很简单,大致分为三个方面的问题:元数据,微阵列平台探针注释和表达数据本身

针对元数据来说,包括对研究的简短描述和以匿名的方式命名的样本,导致某些数据集中样本信息有所不足;对于微阵列平台探针注释,不同制造商将探针与基因相关联的方法不同,数据集间的可比性就会降低,且GEO未收录所有的探针序列,所以也无法验证探针与基因的映射;对于表达数据本身,除了提交者可能执行的操作外,GEO的表达数据是未经过质量控制的。因此,在进行数据分析之前,用户必须要对原始数据进行重新处理和分析,而不是使用已有的或者处理好的数据。

由此,Gemma生物信息学系统(The Gemma bioinformatics system)诞生了,它主要由策展的转录组数据集数据库、分析软件、Web界面和Web服务等组成,该系统会提供Gemma最新的存储数据,数据处理和分析流程,策展指南和软件功能的更新等。截止2020年6月,Gemma手动策展的数据集已有10811个(人、小鼠和大鼠),样本有超过395000个,策展的转录平台也有数百个(微阵列和RNA测序),数据集的主题由来自十二个本体的10215个不同关系组成,总共54316个主题注释(平均主题、数据集=5.2)。用户可以通过Gemma网站、RESTful服务和R包访问策展数据和差异表达分析。

打开网易新闻 查看精彩图片

从NCBI Gene Expression Omnibus(GEO)到Gemma数据库的数据流示意图

使用Gemma,研究人员不需要再对转录组数据集进行重新处理和分析,因为Gemma系统可以解决上述GEO存在的局限性。对于微阵列平台,重新映射了关系;通过质量控制检查、校正去除异常值、表达数据的一致性处理、去除重复样本等解决了数据本身存在的问题;将不能使用的数据集纳入黑名单,从而节省时间和精力;还可以使用Gemma的用户界面对基础基因表达数据进行其他探索和检查。

Gemma的功能,现在主要是允许访问GEO中数据集的数据和分析结果的实用程序,对于其他分析功能,如共表达和元分析等则正在重新设计和修改。除此之外,Gemma在数据存储上只有GEO的部分数据,因为数据的生成需要的策展资源不够。目前,Gemma将处理精力集中在与神经发育、神经、神经精神疾病有关的啮齿动物和人类数据集上,Gemma也将继续添加其他主题的数据,并对用户的特定需求做出响应。

对于Gemma未来的一些功能包括:(1)进行越来越多的具有生物复制的细胞类型特异性研究;(2)加强Gemma基因信息页面上差异表达的显示和解释;(3)为提高差异表达的基因信息列表的可用性的可行性,进行本体推理的摘要技术的研究。

Gemma数据库由来自British Columbia大学的Paul Pavlidis团队建立,相关文献来自bioRxiv平台,题为Curation of over 10,000 transcriptomic studies to enable data reuse

打开网易新闻 查看精彩图片

https://www.biorxiv.org/content/10.1101/2020.07.13.201442v2

打开网易新闻 查看精彩图片

Gemma数据库网址

https://gemma.msl.ubc.ca/home.html