打开网易新闻 查看精彩图片

近年来,随着单细胞基因组学技术的进步,实验通量大幅增加,使得科研工作者能够分析日益丰富与复杂的样本。对跨样本、跨平台和跨数据模态的单细胞数据进行的集成分析能够为全面了解细胞行为提供帮助。因此,能够准确、快速、灵活地整合不同数据源的集成方法对于生命科学研究非常重要。

香港科技大学数学系博士生赵佳和王戈飞携手开发了一种快速准确整合大规模图谱级单细胞数据集的新方法Portal。这项工作在香港科技大学杨灿教授、吴若昊教授和香港中文大学林志翔教授联合指导、以及其他合作者的努力工作下共同完成。2022年5月,该课题组在Nature Computational Science杂志上发表了题为Adversarial domain translation networks for integrating large-scale atlas-level single-cell datasets的论文。

打开网易新闻 查看精彩图片

Portal将来自不同数据源的数据集视作不同的域(domains),通过对抗领域迁移(adversarial domain translation)的深度学习框架将这些数据集连接到一个共享的隐变量空间(shared latent space)中进行整合。该设计使得Portal不仅能整合来自不同样本或不同平台的单细胞RNA测序(scRNA-seq)数据集,而且能进行跨数据模态或跨物种的数据整合。区别于传统的生成对抗机制(generative adversarial mechanism),Portal配备了独特设计的判别器(discriminators),能够在整合过程中保留单个数据集中特有的细胞类型(dataset-specific cell types)。除此之外,Portal利用正则项(regularizers)来保证数据集之间正确的对应关系。Portal还得益于轻量级网络的设计和经图形处理器(GPU)加速的优化算法。因此,Portal可在数分钟内完成对细胞数量在百万级的数据集的整合。

打开网易新闻 查看精彩图片

图 1. Portal算法示意图。

在文中,作者通过基于大量真实数据集的基准实验(benchmarking experiments)对Portal和其他多种主流方法进行比较。一系列评估指标表明,Portal在计算效率和算法准确性两方面均优于现有方法。以小鼠海马体数据集的整合分析为例,Portal在整合不同数据集的过程中准确、精细地保留了各神经元细胞亚群,体现出了优于其他方法的信息保留能力。此外,作者展示了Portal可以准确地整合来自单细胞RNA测序,单细胞核RNA测序(snRNA-seq),以及来自表观基因组测序的数据集。作者还将Portal应用于整合分化过程中的细胞,尤其是整合跨多个物种(小鼠、猕猴和人类)的精子发生过程,从而展示了Portal独特的优势。

Portal的Python软件包可以从GitHub网站https://github.com/YangLabHKUST/Portal下载安装;文章中实验分析的代码可从GitHub网站https://github.com/jiazhao97/Portal-reproducibility下载。

https://www.nature.com/articles/s43588-022-00251-y

制版人:十一

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。