UCSD任兵教授实验室博士后张垲:破解基因组中的暗物质之谜——致力于构建非编码基因的遗传密码表

发表时间:2022-06-27 09:48

《时空对话》第9期

UCSD任兵教授实验室博后张垲


人类基因组由编码基因与非编码基因共同组成,其中,非编码基因占人类基因组三亿个碱基中的98%,但由于缺乏了解,这些非编码基因又被称为基因组中的“暗物质”。近年的研究发现,这些“暗物质”在一些重大疾病中起着非常重要的作用,对“暗物质”进行更深入的研究有助于推动癌症、糖尿病、阿尔兹海默病等疾病的临床诊疗。

那么,目前科研界对这些暗物质的了解有多少?单细胞技术又是如何助力揭开这些暗物质的神秘面纱?近日,《时空对话》栏目有幸邀请到UCSD任兵教授实验室张垲博士为我们分享破解基因组中的暗物质之谜及其对单细胞技术的独有见解。

张垲 博士


美国加州大学圣地亚哥分校任兵教授实验室博士后,本科、硕士毕业于厦门大学,博士毕业于美国加州大学圣地亚哥分校生物信息学与系统生物学专业。在Nature ,Cell,Science Advances,Nature Immunology,Nature Communications,Elife,Genetics,Nucleic Acids Research,PNAS,Database等杂志发表多篇文章。


请您简单介绍一下您所在实验室的主要研究方向以及目前取得的成果。

张垲博士:任教授实验室主要有三大研究方向,在这些方面,都分别取得了一些重要的成果。

第一个方向是基因转录调控序列的研究,包括顺式作用元件,例如绝缘子、启动子、增强子等;在这方面,任教授是较早参与DNA元件百科全书(简称ENCODE)这个国际合作项目的成员之一。在研究中,任教授从组蛋白修饰角度对增强子进行了定义。

第二个方向是染色质三维结构的研究;在这方面任教授在染色质三维结构中找到一个非常重要的结构元件TAD,即拓扑相关结构域,这是一个非常重大的发现。

第三个方向是表观遗传学的研究,主要是关于表观遗传学应用在Stem Cell以及细胞分化间的调控和细胞关系。在这个方面,任教授发现了表观遗传组学在细胞分化以及大脑中的一些功能,例如DNA甲基化、染色质组蛋白修饰等在生物功能以及细胞分化、发育中的作用。

非编码基因被誉为基因组中的“暗物质”,您研究这些“暗物质”的出发点是什么?在研究的过程中又遇到了哪些难题?

张垲博士:我们知道,人类基因组有将近3亿个碱基,包括编码基因以及非编码基因。其中,编码基因大概只占1-2%,剩下的98%都是非编码基因。非编码基因虽然不参与编码蛋白,但会调控蛋白的转录和翻译。几乎所有的疾病或多或少都与非编码基因的调控有一定关系,所以非编码基因非常重要。

研究非编码基因的过程困难重重,而最大的难点在于缺乏“遗传密码表”所带来的难以预测性。简单来说,由于非编码基因不像编码基因一样有遗传密码表,因此假如一个非编码基因发生了基因突变,我们很难预测到它会产生什么表型以及影响。

所以我们目前致力于去寻找一张对应非编码基因的遗传密码表,以便精确预测每个突变所致的影响。

您专注于利用基因组学、单细胞基因组学等数据来研究转录调控机制,并通过构建基因调控网络来确定不同疾病和生物过程中的驱动基因,在这方面,目前有什么研究进展可以与我们分享?

张垲博士:我在读博期间开发了一个多组学的数据分析算法,主要是ATAC-seq、RNA-seq以及ChIP-seq这三种数据的联合分析,目的是通过多组学的联合分析去构建基因转录调控网络,然后运用计算分析的方法去寻找驱动基因。

此外,我最近也在开发Snap-ATAC 2.0软件,主要用于分析单细胞表观遗传学数据。其实现阶段单细胞表观遗传学数据分析的软件有很多,但随着数据越来越庞大,现有的大部分软件都存在一个共同的问题——没有办法实现对庞大数据量的分析。因此我希望Snap-ATAC 2.0能够实现分析几百万甚至上亿个细胞的数据,同时在准确度方面有所提高。

再进一步,我计划将我目前的工作和读博期间的工作进行结合来分析单细胞数据,并基于此构建基因转录调控网络,深入研究转录调控机制。

您如何看待单细胞测序技术?该技术目前面临着哪些机遇与挑战?未来的发展前景如何?

张垲博士:在机遇层面,单细胞技术目前应用非常广泛。毋庸置疑的是,目前在顶级文献上发表的论文很多都基于单细胞技术,因为它能够给我们提供单细胞水平的分辨率。

首先,在生物研究领域,单细胞技术能够助力我们进行很多过往无法进行的研究。以脑研究为例,实际上,由于大脑中细胞类型的多样性,研究脑是非常复杂和困难的,过往我们需要通过传统技术将细胞一个个分离后再进行研究。而如今,在单细胞技术的助力下,我们能够实现一次性研究所有细胞类型。

其次,单细胞应用于临床诊断上也有着巨大的机遇,可以应用于癌症早筛或其他疾病筛查等方面。

再者,在工业界以及生物界,单细胞也有着非常广阔的应用前景。举例来说,单细胞技术能够助力药物筛选,通过单细胞技术的思维方式,可以实现一次性筛选多个药物以及海量的小分子。此外,在建立CRISPR库的基础上结合单细胞技术,可以实现一次敲除多个基因,同时研究他们的表型。

在挑战层面,从计算生物学上的挑战出发,目前相关分析方法的局限性在于无法分析特别大的数据量,因此未来的工作中很重要的一部分是要去研究如何能够分析更大规模的数据量。

此外,数据的整合分析也是单细胞计算生物学上的挑战之一。首先,目前单细胞有很多modality,包括scRNA-seq、scATAC-seq、ChIP-seq等,把这些数据整合起来是一个非常大的挑战。其次,不同的实验室的实验技术或平台所产生的数据以及不同器官间的数据都会存在一定差异,如何把这些数据整合起来,消除这些差异,也是一个非常大的技术难点。

简言之,这些都是单细胞在生信分析层面上的潜在挑战,而这些问题无法从根源上得到解决,只能随着时代的发展、技术的升级,通过一次次的实验去校正,一点点去进步。

当然,这些年我们也一直在进步。以我目前正在开发的Snap-ATAC 2.0为例,它能够在一定程度上解决现有软件无法分析庞大数据量的问题,也许能够满足单细胞表观遗传学数据未来五年的分析需求。

早前,您与团队成员利用高通量单细胞ATAC-seq测序技术分析了来自30个不同的成年人组织类型的超过60万个人体细胞,并构建了一张单细胞染色质可及性图谱,请问该图谱的积极意义体现在何处?

张垲博士:实际上,我们希望构建一张顺式作用元件图谱,而这也是ENCODE一直在做的事情,但ENCODE所构建的图谱主要来源于组织器官以及癌细胞,缺乏人体内的正常细胞,没有达到单细胞分辨率。

而我们的工作首次提供了一个超大规模的高分辨率的顺式作用元件的图谱,包含111种成年细胞类型以及111种胚胎细胞类型。运用这个图谱我们可以找到一些潜在的药物靶点,去研究潜在的基因突变以及和疾病有关系的基因突变,从而在这些位点展开研究,设计药物。


研究证实,发生在顺式作用元件上的基因突变是糖尿病、阿尔兹海默症、自身免疫病等重大疾病的发病机制之一,对这些基因的研究将如何推动这些重大疾病的精准诊疗?目前是否有相关的研究进展?

张垲博士:发生在顺式作用元件上的基因突变所导致的疾病类型很多。在早期,疾病的遗传学研究一直是热点。其中像白化病、红绿色盲等疾病都是单基因遗传病,如果我们找到相关的基因,再通过一定的手段加以校正,那么这些疾病痊愈的可能性很大。

但是现在大部分的慢性病都属于多基因遗传病,是由多个基因突变而导致的,而每个基因的单独作用是非常小的,所有基因的影响累积在一起才会导致疾病的发生。因此,运用传统的遗传学手段去寻找与这些疾病有关系的基因位点是非常困难的。

目前,针对这些多基因遗传病的研究也并没有一个非常理想的手段,我们主要是通过一些关联性分析去寻找相关基因,但这本身就存在一定局限性,只有结合顺式作用元件图谱才能更好地定位到与疾病有关的基因突变。换言之,我们所做的这个图谱其实相当于在前期打基础,如果没有这份图谱,后续寻找基因是非常困难的。

基于我们的图谱,我们尝试着去研究240个疾病的表型,并寻找与这些疾病有潜在关系的顺式作用元件。举例来说,在我们发表的文章中,我们结合该图谱进行分析,找到了一个胃肠道慢性病的潜在突变,该突变发生在顺式作用元件上,且该顺式作用元件仅在胃肠道细胞中是处于激活状态的。在此基础上,我们再运用一些生信的方法,预测到这个突变影响了一个转录因子的结合,进而影响到靶基因调控的变化,从而导致这个疾病的发生。以上就是我们如何运用这个图谱去寻找潜在的突变或与疾病有关系的遗传因子的例子。

我们了解到,您与团队成员曾开发一种名为“Taiji”的新算法来构建转录调控网络,揭示小鼠胚胎发育中的转录波。请您简单介绍一下该研究成果,该成果对于人类关键转录因子的研究是否具有一定的参考意义?

张垲博士:“Taiji”这个软件包其实是一个多组学分析工具,主要运用ATAC-seq和RNA-seq这两种数据。首先,通过ATAC-seq,我们可以找到基因组上可及的序列,并在这些位置上寻找转录因子的潜在结合位点,然后把转录因子和基因联系起来构建调控网络。第二步,我们会通过RNA-seq给调控网络中的基因的表达量加权重。最后,我使用Google的PageRank算法在调控网络中搜索关键的转录因子。

实际上,这是一个普适性非常强的方法,可以应用于研究很多生物问题,去寻找关键转录因子。

我和合作者们运用这个算法去研究了记忆CD8 T细胞,并寻找当中的重要转录因子。随后,我们发现了两个之前从未被报道过的在记忆CD8 T细胞的形成过程中起到非常重要的作用的转录因子。

此外,我们还通过这个算法去研究了组织驻留记忆T细胞(trm),trm是一类在组织器官中发挥作用的T细胞,对癌症的治疗有着很重要的作用。基于此,我们找到了非常重要的转录因子RUNX3,能够激活trm这类细胞,且对癌症具有一定的杀伤力,这项工作也被发表在Nature上。

您认为空间组学技术的发展前景如何?
目前是否有开展基于空间组学技术的相关研究?


张垲博士:在我看来,空间组学技术在一些特定的领域会有非常广阔的前景,例如在脑科学领域,因为大脑是一个空间性非常强、空间信息非常丰富的组织器官。

任老师实验室目前在这方面构建了两个平台,均来自庄小威老师实验室,分别是研究空间转录组的MERFISH和研究染色质空间结构的chromatin tracing。

从个人角度出发,我对空间组学这个方面也比较感兴趣,所以在未来我也计划去开发一些算法或计算工具去做相关整合分析,将额外产生的空间信息整合到现在的scATAC-seq或RNA-seq分析中。

关于《时空对话》栏目


单细胞测序网、时空组学网联合开展“时空对话”栏目。拟邀请100位单细胞测序领域的全球顶尖科学家、企业家、学者、投资人、青年研究员、博士等围绕着单细胞测序的最新研究、技术进展、临床应用等多方面进行访谈,传递价值观念、深度见解,为行业发展提供方向。


分享到:
关于单细胞测序网
单细胞测序网以“加速单细胞测序产业转化”为核心理念,打造聚焦单细胞测序及时空组学领域的资讯和产业服务平台。我们与全国上百家医疗机构、科研机构、专业协会、第三方实验室以及单细胞测序科技企业建立紧密合作关系,以专业深度的视角,给行业从业人员传递最新最全的科研资讯和产业信息。
微信公众号
友情链接:单细胞测序网  早筛网