
单细胞基因组学能以高分辨率了解人体中的每个细胞。过去十年间,对不同发育阶段的各种组织进行分析的单细胞基因组学数据集正在不断积累。目前,组装单细胞研究产生的各种数据集所面临的一个挑战是没有一个统一的系统来命名和组织数据。通过整合这些资源,人类细胞图谱(HCA)等国际联盟已开始绘制人体的标准化参考图谱。汇集不同细胞图谱数据集的一个挑战是:不同实验室使用各自的细胞类型定义,往往导致命名模式不一致。
单细胞测序网讯:12月21日,威康-桑格研究所、剑桥大学、EMBL 欧洲生物信息研究所(EMBL-EBI)的研究人员与合作者共同在 Cell 杂志上发表了题为 “Automatic cell-type harmonization and integration across Human Cell Atlas datasets”的研究论文,开发了一款名为 CellHint 的工具。CellHint 利用机器学习来对单细胞数据进行分类和整合,统一世界各地产生的数据,使研究界能够访问这些数据,从而用于人类健康和疾病研究,推动新的发现。

Cellhint 在全球范围内免费提供(https://www.celltypist.org/organs),它是人类细胞图谱计划的一部分,该计划旨在绘制人体每种细胞类型的图谱,以改变人们对健康和疾病的认识。研究小组将 CellHint 应用于当前的数据,发现了八种导致肺纤维化的疾病中健康肺细胞状态和患病肺细胞状态之间尚未被充分探索的关系。利用CellHint,研究团队还确定了成人海马中一个清晰的神经母细胞样群体,该群体由来自三个数据集的 1,691 个细胞组成,可能对未来研究具有潜在意义。研究人员还将 CellHint 应用于来自 38 个数据集的 12 个组织,提供了一个包含约 370 万个细胞的深度加工的跨组织数据库。每个细胞都做了注释,即给细胞贴上特定信息的标签。他们还展示了它如何创建各种模型,用于在人体组织中自动标注细胞。第一作者、威康桑格研究所的许川博士说:"CellHint 之所以能从其他工具中脱颖而出,是因为它充分利用了单项研究中往往不一致但却很有价值的细胞注释信息,实现了生物驱动的数据整合。让我们感到兴奋的是,有了 CellHint,来自独立实验室的细胞可以被重新标注,研究人员可以利用由此产生的信息,将每个细胞置于原始研究之外的不同背景中。我们希望这一工具能极大地促进分子和细胞数据及信息在各实验室间的重复使用,从而推动生物学的新发现。"通讯作者、人类细胞图谱计划发起人 Sarah Teichmann 博士说:"人类细胞图谱正在绘制人体所有细胞的详细参考图,以改变我们对生物学、健康和疾病的理解,而单细胞技术是实现这一远大的目标的基础。全球合作和开放数据共享对于实现具有代表性的人类细胞图谱的目标至关重要,这将造福于全世界的人类。CellHint 实现了单细胞数据的统一和共享,使全球研究界能够为世界各地正在进行的研究做出贡献并从中受益,帮助推动健康和医疗保健领域的进步。"
1.https://doi.org/10.1016/j.cell.2023.11.0262.https://www.eurekalert.org/news-releases/1029729


