联动专题:生命科学哲学与噬菌体

困难的噬菌体基因组分类

写在前面的
噬菌体分类是我在科研之余遐想较多的一个科学问题。与其他病毒分类不同,噬菌体分类在相比之下明显更困难。我在读研时尝试将葡萄球菌属的各种具有完整基因组序列的噬菌体建立系统发育树以推断这类噬菌体的演化路程。但是,在多序列比对这一步就出现了巨大问题。极端多样性基因组差异导致了多序列比对后得到了一个残破的比对结果。以至于最后建立系统发育树时不得不丢弃很多节点。从那时起,我便开始思考是否存在范式化的噬菌体基因组分类方法?

科学哲学相关名词解释

        形而上学(metaphysics):该词最初来源于古希腊亚里士多德著作中,也是西方哲学对世界或事物存在的基本哲学观点。中国古代传统哲学的“道”与之具有相似性。属于西方哲学的基本理论形式。简单而言,形而上学是指人们基于自我与世界存在的抽象性、一般性和普适性的认知体系。这种体系可以广义普遍地开展针对事物的一般性研究,其理论具有对一切被研究事物的普适性。

联动专题:生命科学哲学与噬菌体

图1.形而上学基本概念图
        

   范式(paradigm):范式概念是库恩范式理论的核心,是一种公认的模型或模式。

噬菌体分类的历史

        我个人片面地认为,噬菌体分类可以以基因组测序技术的建立为划分点。将噬菌体分类划分为以1.宿主菌、形态等病毒生理学特征描述分类噬菌体的时期,例如以噬菌体分离出的宿主菌+噬菌体名称进行命名,以噬菌体形态学长尾、短尾和肌尾,遗传物质是否是双链DNA或RNA等进行分类。2.以全基因组数据描述噬菌体的大数据时期。事实上,当全基因组测序大量应用于噬菌体领域后,噬菌体的分类问题越发困难。这是因为通过全基因组测序,科学家发现来自于同一宿主(例如宿主都是金黄色葡萄球菌)的噬菌体基因组都存在显著的差异。这种差异程度远远大于其他病毒家族成员之间的差异程度。如何在基因组水平进行更好地噬菌体分类依然是巨大地挑战。建立范式的噬菌体基因组分类方法将推动人类更好地认识噬菌体。
        基于上面的情况,我个人认为噬菌体基因组分类困难在于:1.同一宿主的不同噬菌体,基因组差异可能很大;2.不同宿主分离出的噬菌体基因组差异可能很小(有可能这些噬菌体宿主谱本身很广)。3.多样化的细菌类型导致了宿主的遗传多样性,这种多样性在一定程度上放大了不同宿主菌对应的噬菌体差异性。

基于大末端酶序列的噬菌体基因组分类

        如利用16s rDNA序列对细菌进行分类一样,如果噬菌体基因组上存在一段片段。此片段十分保守,且兼具一定的种属特异性。利用这种标志性序列(biomarker sequence)对噬菌体进行基因水平的系统发育分类,是一种可取的方法。在疫情期间,我曾读到一篇发表于Nature的文献《Clades of huge phages from across Earth’s ecosystems》。这篇文献利用了大末端酶序列(large terminase)对大基因组(基因组大小超过200kb)噬菌体进行了系统发育分析。

联动专题:生命科学哲学与噬菌体

图2.大基因组噬菌体的进化史的系统发育重建

        大末端酶作为噬菌体的一个重要功能组分确实具备作为噬菌体分类的biomarker潜质。这篇论文成功地利用大末端酶序列联立了这些噬菌体宿主菌、大基因组噬菌体演化关系。然而,当我满怀希望地利用这个蛋白对全部噬菌体进行系统发育分析时,我遗憾地发现小基因组噬菌体的这个序列依然具备明显的差异性。于是我证明了利用大末端酶序列作为分类的方法并不能作为代表噬菌体基因组分类的范式方法。

基于噬菌体的包装机制建立噬菌体分类的数学模型

        由于目前被发现的噬菌体大多数属于dsDNA噬菌体。这些噬菌体在其感染周期结束时通常形成连环体(由一个单位的DNA连接成几个链状所成的集合体),后在包装过程中被末端酶切割,形成成熟染色体。噬菌体主要通过以下四种机制来识别自身的DNA(而不是其宿主的DNA),然后启动并终止其包装。
1.末端酶识别一个特定的位点,在该位点上引入交错切割(cos位点),从而产生具有粘性末端的固定DNA末端,并且该末端有5’或3’突出端。这类噬菌体被称作Cos噬菌体。

2.噬菌体DNA可以识别一个固定的位置,在这个位置上,交错缺口的3’末端通过延伸合成产生直接末端重复(DTR)。这类噬菌体被称为DTR噬菌体。

3.末端酶可以在特定包装位点(pac位点)上在噬菌体连环体上启动包装,当噬菌体头部填满时,在不同的位置进行后续的切割。这导致衣壳含有环状排列的基因组,其具有冗余末端,用于在注入宿主细胞后通过重组使噬菌体基因组环化。这类噬菌体被称为Pac噬菌体。

4.T4-like的噬菌体使用了这种headful包装机制的一个变体,其中没有pac位点被识别,包装也是随机启动的。这些噬菌体通常会降解宿主DNA,确保只有病毒DNA被包装。

        基于上面所述主要机制,相关研究人员开发了一个名为PhageTerm的程序(文献《PhageTerm: a tool for fast and accurate determination of phage termini and packaging mechanism using next-generation sequencing data )通过将全基因组测序的Reads比对至组装好的参考基因组上,以确定起始位置覆盖率(SPC)和每个方向的覆盖率(COV)。然后将这些值用于计算变量τ= SPC/COV。可以用这个变量来确定DNA末端。

图3.根据Reads比对结果以判断噬菌体分类

        针对比对结果和τ值联立可以将噬菌体进行分类:1.3’ Cos噬菌体 τ = 1,5’Cos噬菌体τ期望值为0.5;2.DTR噬菌体存在多个片段化结果,τ期望值为0.5;Pac噬菌体0.1 < τ < 0.5。与前面使用大末端酶序列相比,这种方法在原文中指出可以适用于大部分dsDNA噬菌体。理论上做到了针对dsDNA噬菌体分类的形而上学的水平。但是,由于这种分类仅仅是区分包装机制、确定噬菌体基因组末端。并不能更有信息性地揭示噬菌体与噬菌体直接的关系。因此这种方式仍然停留在一种较浅层的分类水平。

写在后面的
对于噬菌体基因组分类的思考,我个人也停留在较浅的层次。在我看来,噬菌体不同于其他病毒,它的多样性是发散的。很难找到一个较好的标志物对全部的噬菌体进行范式化分类。或许,在未来噬菌体的分类方式需要引入更新的视角和理论。此外,加上个人初涉哲学层面的知识还有很多地方写的晦涩难懂。这方面我还需要不断努力改善。

联动专题:生命科学哲学与噬菌体》来自互联网公开内容,收录仅供学习使用,如侵权请联系删除。本文URL:https://www.ezixuan.com/1021233.html

(0)
上一篇 2023年 2月 1日 上午9:02
下一篇 2023年 2月 1日 上午9:02