单细胞Hi-C可以识别细胞间3D染色质组织的可变性,这是细胞中基因组折叠和基因表达的关键信息。但是,Hi-C数据一直难以分析,因为测量到的交互作用十分稀少。现在,卡耐基梅隆大学(Carnegie Mellon University)计算生物学系的一个团队开发了一种新的算法,为以前所未有的分辨率说明这一过程提供了强大的工具。

这项工作发表于自然生物技术,在报纸上,”Higashi的多尺度和综合单细胞Hi-C分析。

该算法名为Higashi,基于超图表示学习——这种机器学习形式可以在应用程序中推荐音乐,并进行3D物体识别。它可以“整合单个细胞之间的潜在相关性,以增强接触图的整体归因。”

该算法是第一个在超图上使用复杂神经网络的工具,以提供单细胞基因组组织的高清分析。普通图将两个顶点连接到一个相交点(即一条边)上,而超图将多个顶点连接到一条边上。

Higashi算法与单细胞的Hi-C一起工作,它创建了染色质相互作用的快照,同时在单个细胞中发生。Higashi提供了一个更详细的分析染色质的组织在单一细胞的复杂组织和生物过程,以及它的相互作用如何在细胞之间变化。通过这种分析,科学家们可以看到细胞间染色质折叠和组织的详细变化,包括那些在确定健康影响方面可能是微妙但重要的变化。

卡内基梅隆大学计算机科学学院计算生物学教授马建博士说:“基因组组织的可变性对基因表达和细胞状态有很强的暗示作用。”

计算机科学学院的博士生张若池(Ruochi Zhang)和研究生周天明(Tianming Zhou)以及马(Ma)一起,用一种传统的日本糖果命名Higashi,延续了他用自己开发的其他算法开创的传统。“他对研究充满热情,但有时也带着一种幽默感,”马说。

Higashi算法还允许科学家同时分析其他与单细胞Hi-C共同分析的基因组信号。最终,这一特性将使Higashi的能力得以扩展,这是及时的,考虑到单细胞数据的预期增长,Ma预计在未来几年通过NIH 4D Nucleome项目,他的中心所属的项目。这种数据流将为设计更多算法创造更多机会,这些算法将促进对人类基因组在细胞内如何组织及其在健康和疾病中的功能的科学理解。

“这是一个快速发展的领域,”马云说。“实验技术正在迅速发展,计算技术也在发展。”

作者写道,Higashi“在单细胞Hi-C数据的嵌入和输入方面优于现有的方法,并且能够识别单细胞中的多尺度3D基因组特征,如区分隔和tad样域边界,允许精细描绘细胞间的变异性。”此外,与单独分析两种模式相比,Higashi可以将在同一细胞中共同分析的表观基因组信号纳入超图表示学习框架,从而改进了单核甲基- 3c数据的嵌入。

这项工作是作为一个多机构研究中心的一部分进行的,旨在更好地了解细胞核的三维结构,以及该结构的变化如何影响健康和疾病中的细胞功能。这个耗资1000万美元的研究中心由美国国立卫生研究院(National Institutes of Health)资助,由卡耐基梅隆大学(Carnegie Mellon University)领导,马是该中心的首席研究员。