美国NIH徐肖江研究员:单细胞数据分析——承上启下的生物地图,能够为精准医疗提供坚实的基础

发表时间:2022-07-08 09:32

《时空对话》第11期

美国NIH徐肖江研究员


自问世以来,单细胞技术发展十分迅速,在这十年间,单细胞技术已实现从低通量到高通量的跨越。随着单细胞技术的不断发展,单细胞技术所产生的数据也呈指数级上升。面临越来越庞大的数据量,研究人员该如何进行分析?现有算法又是否足以支撑单细胞所产生的数据?

近日,《时空对话》栏目有幸邀请到美国国立卫生研究院,环境与健康科学研究所(NIEHS,NIH)资深生物信息学研究员徐肖江进行访谈,分享其对单细胞庞大的数据量分析难题该如何破局的看法及其对单细胞领域的独有见解。

美国NIH徐肖江研究员


徐肖江博士是全球高通量测序数据分析和质量控制协会(MAQC)高通量单细胞测序分会主委。从2007年起,一直致力于开发和应用各种生物计算算法、工具建模和分析各种生物大数据,包括微阵列数据,全基因组测序,基因表达谱测序等各种二代测序数据,是第二代测序数据分析技术的领军人物。从2016年底开始在美国国家健康研究院环境与健康科学研究所(NIEHS,NIH)领导建立第三代基因测序和高通量单细胞测序的平台。研究领域涉及基因组学,分子遗传学,表观遗传学,激素,癌症肿瘤学,免疫学,毒物学,以及数学算法等;同时关注转化医学和临床应用,如精准医疗。到目前为止已发表SCI 收录论文近五十篇,包括自然(Nature), Nature Biotechnology, 自然通讯(Nature Communication), Cell Stem Cell, Cell Metabolism, Immunity, Journal Clinical Investigation, Cell Report, 分子细胞(Molecular Cell), Cell Discovery, Gastroenterology, EMBO Journal,eLife,Bioinformatics(生物信息学) 和JBC等全球顶级杂志,是国内外多家顶级专业杂志的审稿人。


您认为目前全球单细胞测序市场格局是怎样的?我国单细胞测序的发展现状如何?面临着哪些机遇与挑战?

徐肖江研究员:实际上,我很早就开始接触单细胞测序,在这十年间,既见证了单细胞技术从低通量到高通量的发展,也见证了单细胞测序市场格局的变化。目前全球单细胞测序市场格局可以简单地从两个方面进行分析。

从市场份额来看目前单细胞测序市场呈现一家独大的格局,10x Genomics占据了大约80%的市场份额。但从商业化角度来看,单细胞测序仪器试剂的商业化则呈现百花齐放的格局,其中,比较具有代表性的有BD、ddSEQ、华大、新格元以及浙江墨卓等企业。

从技术层面来看,液滴/微流控是目前的主流技术,也是10x Genomics应用的技术;同时,微孔以及pool-split这两种技术也非常值得关注。其中,pool-split技术无需依赖平台,只需通过index不断进行重复标记就可以完成,但相对其他技术来说,这项技术目前所呈现的数据质量还不够好。在这当中,浙江墨卓的技术几乎是与10x Genomics“师出同源”;此外,华大与新格元等企业也有着自己的独特优势。

在单细胞空间转录组方面,10x Genomics依然领先,NanoString也展现了强劲的态势。同时,我个人也比较看好slide-seq2及下一代的技术。除此以外,目前还有众多的新技术和平台在开发,至于这些技术平台的应用前景如何,主要还是取决于产品的易用性和稳定性。

目前,放眼全球,我国的单细胞技术在全球生命科学研究领域处于第一梯队,尤其是北京的单细胞科研水平是属于一级的。我国的科学家做出了非常多重量级的科研成果,而这也要归功于国家对科研投入的大力支持。同时,我国的产业界对单细胞技术的嗅觉也十分敏锐,一些风投机构已经在这方面做了大量的工作,更好地助力单细胞技术的发展。

在机遇层面,业界有很多专家认为单细胞测序未来十年会成为千亿市场。实际上,单细胞测序是二代测序的延伸,在未来,它将会取代二代测序以及二代测序市场。因此,单细胞测序市场有着巨大的商业和应用前景。而应用主要分为两大块,一方面是仪器试剂;另一方面是科研和临床。简言之,单细胞测序在生物标志物的挖掘、药物的研发、临床应用等,都有着巨大的机遇。甚至可以说,在单细胞技术层面,中国拥有在科研领域弯道超车的绝佳机遇。

在挑战层面,技术开发临床应用是目前国内面临的主要难题。在技术开发上,挑战主要体现在我们的技术主要还处于“跟”的阶段,没有很多本土原创的技术,而这与我们在生物领域的基础相对薄弱有很大的关系。在应用上,目前我国还没有一个临床级别的仪器——比较小巧、价格较低,能够大规模应用的仪器,同时,我们也缺乏相关的试剂。

换言之,单细胞技术所面临的挑战分散于上中下游的整条产业链,目前业内正一点点地突破,但要实现全面突破还有很长的路要走。因此,我希望国内产业界的企业能够团结起来,共同实现产业链的连通。

您认为单细胞测序数据比起群体测序数据有什么特点?分析结果又有何重要意义及价值?

徐肖江研究员:二代测序主要是基于二代测序平台的一种技术,包括RNA、DNA的测序等,其特点在于所有细胞是混在一起的;而单细胞测序最大的特点则在于“单细胞分辨率”,该技术会把每一个细胞里的RNA、DNA或其他有序列有关的数据进行barcode,但在标记后,这些数据依然是采用二代测序平台进行测序。换言之,单细胞测序仪器在很大程度上只是增加了前期处理的步骤,把原来的组织变成单细胞,并进行标记。

与二代测序相比,单细胞测序的一个非常显著的特点就是数据量的不同。通过二代测序技术,一个样本只能得到一个数据,属于二维维度。而单细胞测序,一个细胞就已经属于一个维度,因此其产生的数据量会远远超过二代测序产生的数据量。同时得益于数据量变大,我们还能够观察到样本内部细胞类型/状态的异质性。

其次就是分辨率的问题。打一个通俗的比方,目前单细胞科研其中一个很重要的方向就是相关图谱的绘制,其实这些图谱跟我们地理学上的地图“定位”十分相似,如果没有定位,我们将难以到达目的地。癌病灶在我们体内就相当于“目的地”,我们只有发现它的坐标——肿瘤细胞特异形成,才能精准地通过药物去消灭它。而如果没有这些定位,我们就只能依靠目标不那么明确的“化疗药”,虽然一次能够干倒一大片,但同时也误伤了“友军”。

因此,简单来说,通过单细胞技术,我们可以看到组织内部不同细胞的生态环境,而在单细胞分辨率的水平上对这些微环境的了解也为下游产业创造了很多条件。

在分析结果的价值层面,我认为单细胞技术在组织发育、疾病发生以及治疗效果或抗性等方面都有着重要意义。

您从2016年底就开始在美国国家健康研究院环境与健康科学研究所领导建立第三代基因测序和高通量单细胞测序的平台,请您介绍一下研究所的单细胞测序平台建立过程以及现状。

徐肖江研究员:单细胞测序技术实际上是基于二代测序平台的,单细胞这个部分本质上是一个建库平台,因此建立单细胞测序平台就意味着我们需要在测序的基础上加一个前端建库平台。

在2016年前,我们研究所已经拥有低通量的单细胞测序、基因芯片和二代测序这几个平台。2016年底,我们引入了第一批商业化的10x Genomics、ddSEQ、Drop-seq 及Pool-split-seq的仪器和实验平台,并设计了很多不同的实验去评估这些平台的性能,最终分析出这些平台各自的优缺点,这些工作为我们后面单细胞测序平台的建立打下了夯实的基础。

随后,我们针对单细胞测序引入了Illumina NovSeq 6000 高通量测序仪及第三代测序仪。在大规模应用时,我们还对这些技术参数进行收集并不断地修正。

另外,因为我们主要研究方向是计算生物学,所以我们特别关注数据处理分析。在建立单细胞测序平台过程中,我们主要做了两方面的工作,一方面是算法的开发;另一方面,由于我们是MAQC,SEQCII单细胞测序数据分析和质量控制项目的主要参与者,我们具体地参与了每一步的数据分析,并对各个环节/阶段的参数变化对数据质量影响和不同的数据分析算法和流程对结果的影响进行了评估,基于以上工作,我们总结了单细胞转录组测序最佳的数据分析方案,成果发在了BNT上。

简言之,在单细胞测序平台建立的整个过程中,我们做了全方位的搭建,包括实验平台及数据分析平台等。

在单细胞测序数据分析层面,您认为目前有哪些较好的分析工具或算法?与其他分析工具相比,其有何独特之处?

徐肖江研究员:目前单细胞有许多分析工具或算法,可以简单分为两个平台,一个是基于R的分析平台,另一个是基于Python的分析平台。基于R的平台,比较流行的是Seurat。基于Python的分析平台主流的有scanpy和scvi-tools。

那么,R和Python的区别在哪里?

以Seurat为例,在早期,得益于很多统计包可以被利用,基于R的Seurat应用更为广泛和顺利,但当单细胞测序产生的数据量越来越多后,基于R的平台无法支撑如此庞大的数据量因此目前越来越多研究者把工具转向Python。

在这里,我也介绍一个资源——awesome-single-cell网站,里面收集了非常多的算法和工具。(https://github.com/seandavi/awesome-single-cellCommunity-curated list of software packages and data resources for single-cell, including RNA-seq, ATAC-seq, etc. )

早前,您所参与进行数据分析的一项研究论文发表于Cell Stem Cell杂志上,该研究为代谢调节细胞分化提供了新的分子机制。请您简单介绍一下在该研究过程中的数据分析过程以及研究成果。

徐肖江研究员:这篇文章其实是非常典型的多组学联合研究案例,通过一系列高通量测序分析,定量蛋白质组学分析,单细胞测序分析,以及分子、细胞和小鼠实验,揭示了短链脂肪酸代谢所产生的中间产物巴豆酰辅酶A能够修饰组蛋白,进而促进胚胎干细胞向中内胚层分化。

在这当中,应用单细胞测序的好处在于我们能够清楚地看到细胞分化过程的轨迹,例如哪部分细胞还停留在干细胞状态,哪部分细胞已经分化。基于这种单细胞分辨率的数据,我们可以更清楚地阐明细胞分化的分子机制。

据了解,您与多个研究组都有合作,内容涉及各种癌症发生与发展的分子机理,激素作用分子机制,污染物致病用的分子机理等;在这些方面,目前是否有已确定的成果或研究进展?

徐肖江研究员:我们在这四、五年间发表了十几篇单细胞文章,目前正在进行的研究包括激素、癌症、生殖、新冠以及心脏疾病等方面。

我们知道,在肠道肿瘤或胃癌的发病群体中,男女比例差异较大,因此我们正在进行一项关于糖皮质激素以及雄性激素相关受体是如何合作调控胃部细胞以及免疫细胞生物的典型研究,以阐明男女之间发病率差异的原因。同时,在癌症研究方面,我们还做了胰腺导管癌相关的研究,主要是根据不同的影像进行差异、一致性的分析。

此外,在生殖方面,我们也发了几篇相关的文章。通过单细胞的研究,我们能够更清楚地知道哪些细胞会参与不孕不育相关的基因调控,从而能够更好地进行治疗干预。

您的研究领域包括基因组学,分子遗传学,表观遗传学,激素,免疫学,毒物学等,您认为单细胞数据分析在当中扮演着何种角色?单细胞数据分析如何助力挖掘疾病机制和潜在的治疗靶点?

徐肖江研究员:单细胞数据分析起到了一个承上启下的生物地图/生物GPS的作用。

我们知道,每个细胞中的基因数量有大约有2万到3万,而一个组织中存在着很多不同类型的细胞,且这些细胞中的基因是互补的。在这当中,我们会发现细胞间存在着非常大的差异,而单细胞数据分析就相当于给每个细胞“找户口”,能够为分子遗传学、疾病发生机制的研究提供物质基础。

我相信,基于单细胞数据分析,未来将会产生更多各种各样的单细胞图谱,为精准医疗的发展提供坚实的基础。


单细胞技术实现临床转化还要多长的路要走?目前您与团队成员在转化医学层面是否有相关的临床应用计划?您认为单细胞数据分析将如何推动精准医疗的发展?

徐肖江研究员:我们知道,目前二代测序在临床上的应用主要是靶向治疗和基因检测,具体是对DNA进行测序;而单细胞测序相对成熟的方向在于RNA测序,因此,单细胞测序想要在临床上完全取代二代测序并实现临床转化,还有很长的路要走。但需要指出的是,在生殖领域,单细胞技术早在2013年左右就已实现临床转化。

单细胞技术目前在临床上的应用主要是寻找生物标志物以及生物靶标。单细胞技术如果想要真正实现临床转化,则需要在DNA测序上取得进一步突破。只有这样,单细胞测序才能够为精准医疗和个体化医疗打下坚实的科学基础,让临床能够精准地设计药物靶向治疗或者免疫治疗方案。


目前空间组学发展迅速,您认为空间组学和单细胞组学二者是怎样的关系?空间组学数据的分析和单细胞数据分析比起来有什么不同之处?

徐肖江研究员:空间组学和单细胞组学二者应该是相辅相成、各有优点的关系。

我们知道,在大多数时候,细胞的空间位置会决定它的功能。单细胞技术虽然能够帮我们捕获每一个细胞,但却破坏了细胞原来的位置。空间转录组相对于单细胞测序而言,则能够提供更进一步的空间位置信息。但是,空间转录组也存在一定局限性,首先,它在空间维度上仅仅是二维结构;其次,它的价格相对昂贵,导致目前的技术所能抓到的空间非常有限,无法代表整个组织。

在细胞数量整个层面,单细胞可以提供所有细胞的信息,而空间转录组只能提供一部分的空间信息,因此二者可是互补的关系。

目前热门的空间转录组技术其实大部分是多细胞水平的,但从今年上半年开始已经有单细胞分辨率的空间转录组测序技术出现。此外,原位空间转录组也将会是空间转录组技术的发展方向之一。

我对空间转录组这个技术寄予厚望,空间转录组技术毫无疑问会得到巨大的发展,其在肿瘤研究、检验科等都会有非常广阔的应用前景。目前,我们也正在做空间转录组这个方向的应用研究。


具体信息也可以访问万辉单细胞测序官网:http://www.wanhuibiomed.com/

关于《时空对话》栏目


单细胞测序网、时空组学网联合开展“时空对话”栏目。拟邀请100位单细胞测序领域的全球顶尖科学家、企业家、学者、投资人、青年研究员、博士等围绕着单细胞测序的最新研究、技术进展、临床应用等多方面进行访谈,传递价值观念、深度见解,为行业发展提供方向。



分享到:
关于单细胞测序网
单细胞测序网以“加速单细胞测序产业转化”为核心理念,打造聚焦单细胞测序及时空组学领域的资讯和产业服务平台。我们与全国上百家医疗机构、科研机构、专业协会、第三方实验室以及单细胞测序科技企业建立紧密合作关系,以专业深度的视角,给行业从业人员传递最新最全的科研资讯和产业信息。
微信公众号
友情链接:单细胞测序网  早筛网