病原多组学研究方法比较与技术分享联动:FS DNA lib Prep kit跨平台高保真测序

FS DNA lib Prep kit跨平台高保真测序

写在前面的
之所以想到开这样一个专题,主要原因是我跟我的师妹都有一个课题涉及了建立高效稳健的病原多组学研究标准化方法。既然是建立一个高效的多组学研究方法,那么必然会针对同一组学研究方法中样本提取、文库构建及分析方法进行尽可能全面系统的比较。事实上,我跟我师妹已经比较过了几种不同试剂盒了,突然有一天师妹突发奇想建议我可以开一个公众号专题专门记录我跟她在这个课题上对一些试剂盒或者分析方法的比较记录,无论此方法是否好,这样不仅有利于我们自己及时记录相关数据,还有利于分享给其他做类似工作的同行,以帮助他们避免踩坑。

高保真测序在ISNV研究中的重要性

        ISNV(Intro-host Single Nucleotide Variation)也叫宿主内单核苷酸多态性。这种方法经常应用在单克隆的菌落或单一病人体内感染的病原的种群多态性研究中。因此ISNV侧重点还是SNV,I代表intro。那什么是SNV呢?这和SNP又有什么区别呢?根据英文释义: A SNV is a variation in a single nucleotide without any limitations of frequency and may arise in somatic cells. A SNP is a substitution of a single nucleotide that occurs at a specific position in the genome, where each variation is present at a level of more than 1% in the population. 根据英文释义可知,无论是SNV还是SNP都是基因组上的单核苷酸变异,但是与SNV不同,SNP更强调了可遗传性,即发生的突变能在下一代群体中存在1%以上可观测比例。更加形象地解释可以理解为某个病原的一部分个体在细胞中发生了突变,如果此突变在病原传代后的子代中还可以存在1%以上的携带,那么这个突变是SNP。而SNV并不关心上一代的变异是否遗传了下一代。
        ISNV在研究病原基因组多样性、进化方面具有重大意义,尤其是在新冠病毒的研究中对于解析病毒-宿主互作,推断人传人传播途径已经发表了多篇论文。例如疫情早期中国科学家发表于Clinical Infectious Disease杂志的学术论文Genomic Diversity of SARS-CoV-2 in Coronavirus Disease 2019 patients就采用了基于ISNV Calling的方法解析了早期新冠病人病毒-宿主互作及人体对病毒的选择压力。

病原多组学研究方法比较与技术分享联动:FS DNA lib Prep kit跨平台高保真测序

高保真测序是准确分析ISNV的必要保证

        由于ISNV Calling需要对变异频率低的核苷酸进行分析,因此必须要充分移除因为测序错误导致的假阳性变异。尽管当前很多推送都说NGS测序准确性高(>99%),事实上这种说法本身没有错,这是因为NGS的99%准确性是一个笼统的泛化概率,即考虑了测序深度。针对单个NGS测序的单碱基识别准确性估算是另外一个问题。那么如何估计单次测序的单碱基识别准确性呢?这需要用到kmer的知识。kmer中文名称是k子串。是指一段长度为21bp左右的短片段。详细关于kmer的知识可以参考我以前的推文。生物信息学分析实用小技巧(七):噬菌体基因组估计

        通过计算kmer频率构成的主峰和亚峰以推断单次NGS测序的错误率。那么影响NGS测序准确的两个主要因素是建库环节和测序环节。对于后者,市场上主要使用的NGS测序平台是illumina平台和华大MGI平台。赛默飞的基于氢离子的平台目前使用市场较小。而且,已经有来自韩国的权威研究机构发表了研究论文证明了华大MGI和illumina平台在测序准确性上是高度一致的。(论文题目Comparison between MGI and Illumina sequencing platforms for whole genome sequencing)。因此,目前唯一可以影响单次NGS测序的单碱基识别准确性的环节只有文库构建环节。但是早期我曾尝试过几款建库试剂盒,最后在估计测序错误率时均在1.4%左右。如此高的测序错误率确实影响了多态性分析。

病原多组学研究方法比较与技术分享联动:FS DNA lib Prep kit跨平台高保真测序

建库记录

        因为几个月前尝试了几款试剂盒最后无论是在illunima还是在华大MGI测序仪测序后都达不到我的要求,ISNV相关的研究也暂停了。后来因为师妹做宏基因组课题从她的熟人那里要了几款建库试剂盒试用装做比较。我让她顺便也做了几个基因组建库,准备再试试能不能发现几款可以做到高保真测序的试剂盒。不过,当第一次看见师妹手里拿着ABclonal的建库试剂盒时我是惊讶的,我还问我师妹,这家公司不是卖抗体的吗?师妹给我解释说这家公司业务很广,基本的分子生物学上游试剂耗材都做,卖抗体只是别人的特色业务之一。另外我师妹说她之所以看中这款试剂盒,是因为这款试剂盒建库后是illumina和华大平台均兼容的。很少有试剂盒能够做到这一点。报着试一试的态度,还是让我师妹继续试了。

如何估计单碱基识别错误率

        如前面所述,既然测序错误率是用kmer来估算,那么如何估计应该是主要关注的问题。有一款叫做Jellyfish的软件可以用于单碱基识别错误率的估计。首先,软件的安装方法如下:

wget http://www.cbcb.umd.edu/software/jellyfish/jellyfish-1.1.10.tar.gz
tar zxvf jellyfish-1.1.10.tar.gz && 
cd jellyfish-1.1.10 && ./configure --prefix=$PWD
make && make install &&
export PATH=$PATH:$PWD

        成功安装jellyfish后可以使用jellyfish -h查看使用方法。我以使用ABclonal FS DNA lib Prep kit试剂盒建库后鲍曼不动杆菌的NGS测序数据为例演示一下如何估计测序深度

ngs=ABaomannii_R1.fastq
gunzip -d ABaomannii_R1.fastq.gz
jellyfish count -m 21 -t 10 -s 5M $ngs
jellyfish stats mer_counts.jf > res.stat

        最后错误率的估计使用res.stat文件中Uniq kmer的数量除以Total kmer的数量。令我惊讶的是ABclonal这款试剂盒的错误率估计值在0.35%,相比于其他几款试剂盒确实低了不少。由于jellyfish一次只能对一端进行错误率估计,我对R2端再分析了一次发现R2端的单碱基识别错误率在0.41%,二者整体相差不大。效果确实很好。由于我师妹一开始让公司用illumina平台测的,我让公司换华大的平台测了。最后统计以华大平台测序后的错误率分别是0.32%和0.38%。这也证明了华大和illumina测序平台准确性确实是高度接近的。其次这款试剂盒确实兼容华大和illunima平台。

后续

        后来,我从师妹那里要到了这个试剂盒的简介。暂时也在此记录一下这款试剂盒对于在NGS测序中降低单碱基错误读取有积极作用,此外也证明了该试剂盒确实具有良好的跨平台兼容性。由于课题研究的局限性,我并没有探究这款试剂盒其他方面的优点。如果哪位读者恰好也在开展ISNV方向的课题,我推荐使用这款试剂盒进行建库。能够大大避免由于测序的错误导致的假阳性结果。

写在后面的
为了方便有需求的读者快速了解该试剂盒产品性能,我联系了这家公司的销售,要了她二维码。如果读者对此产品感兴趣,可以直接找她了解更多的信息。对于我而言,使用试剂盒仅仅只是我探索自己课题的一个环节。更多的时候我的目光聚焦于课题的科学问题上。

病原多组学研究方法比较与技术分享联动:FS DNA lib Prep kit跨平台高保真测序》来自互联网公开内容,收录仅供学习使用,如侵权请联系删除。本文URL:https://www.ezixuan.com/1020939.html

(0)
上一篇 2023年 1月 30日 上午9:45
下一篇 2023年 1月 30日 上午9:45