目标序列捕获测序 VS 扩增子测序

写在前面的
上一次专题针对如何更有效地对SARS-CoV-2进行更有效的全基因组测序，简要介绍了目前两种常用的方法Targeted Capture Sequencing（目标序列捕获测序）和Amplicon Sequencing（扩增子测序），这两种测序方法都是以特异性增加目标病原核酸在待测样本中丰度。二者分别采取以特异性捕获方式富集目标序列核酸（Targeted Capture Sequencing，增加了相对丰度）；特异性扩增目标序列核酸（Amplicon Sequencing，增加了绝对丰度）。在实际的应用中这两种方法表现如何？这一次专题我们专门以一个公共数据为对象，实际对这两种方法采用相同的生物信息学分析策略，以比较二者的相对优劣。

公共数据集介绍及下载

公共数据库中有一批国外的数据集编号为PRJNA741220。该数据集来源于对某个地区同一时间段内的COVID-19的咽拭子样本分别开展的基于Targeted Capture测序（n = 70，双端测序）和基于Amplicon测序（n = 48，双端测序）。测序平台是Illumina NextSeq 500。我认为这批数据能够很好地表征以上两种测序方法效果。两个原因：1.咽拭子样本作为公共社会中检测SARS-CoV-2的最常用样本之一，获得方法和成本最简单。2.咽拭子样本中因为富含人类各种口腔微生物及人源性核酸，实际上SARS-CoV-2在咽拭子样本中的载量并不高。因此，这批数据集我认为具有非常好的代表性，值得分析比较！
数据的下载方法有多种，可以直接通过NCBI下载，也可以获得下载链接用迅雷下载，还可以使用Aspera软件下载，该软件下载数据的方法我在前段时间以英文版推送进行了详细说明（使用英文版推送主要是为了能让一带一路国家的留学生也能看明白）。

Aspera高速数据传输工具

比较分析指标的定义

事实上，抛开本次推送来讲，全面评价一种测序方法的优良需要从上游实验、下游分析以全面评估。

上游实验评估指标包括了：

1.建库的试剂耗材成本、建库的时间成本、操作的简便性；
2.建库后的核酸质量，如以Qubit反映的文库核酸质量是否过关；
3.文库的兼容性，如建立的核酸文库是否适用于不同的测序平台如（Illumina，华大,甚至是ThermoFisher等）;
4.上机操作的成本、时间等；
5.其他（可能还有我没有想到的）。

下游分析评估指标包括了：

1.下机后目标病原的有效数据量（体现在目标物种的reads数占总reads数比例）；
2.下机后目标病原的clean reads比例（是否存在建库方法的系统误差导致了测序仪不能高质量地识别碱基）；
3.目标病原的clean reads的覆盖度。（即能否100%或接近100%的比例覆盖目标病原的整个参考基因组）
4.目标病原测序深度（尽管测序深度可以通过加大测序量以增加，但是在单位测序量下，哪种方法对目标病原测序深度更大）；
5.目标病原基因组碱基识别准确性（即是否存在因为测序的原因引入的系统变异误差）。
6.其他（我暂时没有想到并列出的）。

数据分析比较

由于本次比较使用的公共数据，无法针对上游实验开展系统比较。因此，本次仅以下游生物信息分析指标评估两种测序方法的优劣。接下来，直接开门见山罗列生物信息学分析结果。

SARS-CoV-2基因组测序专题（二）

图1.两种特异性SARS-CoV-2基因组测序方法的全基因组平均测序深度比较。其中基于扩增子测序（AMPLICON）样本量为48；基于目标序列捕获（Targeted-Capture）样本数量为70。

其次，以全基因组平均测序深度为指标对两种方法进行比较。根据箱线图可知，两种方法基本都能保证SARS-CoV-2全基因组有1000 x以上的测序深度，相比之下基于目标序列捕获的方法有相对稍高的全基因组平均测序深度。但是，基于目标序列捕获测序的方法中存在12个样本（约17%）全基因组平均测序深度低于100。相比之下基于扩增子测序的样本只有2个样本（约2%）全基因组平均测序深度低于100。一般情况下，对于检测SARS-CoV-2的突变，测序深度大于100具有较高置信度。考虑到基于AMPLICON测序的全基因组平均测序深度的变异系数小，且大部分样本都能达到100 x以上测序深度，因此似乎可以再次得出结论，如果不仅要以检测SARS-CoV-2阴阳性为指标，同时还要检测突变。扩增子测序是最佳选择！

SARS-CoV-2基因组测序专题（二）

图2.两种特异性SARS-CoV-2基因组测序方法的全基因组覆盖度比较。其中基于扩增子测序（AMPLICON）样本量为48；基于目标序列捕获（Targeted-Capture）样本数量为70。

接下来，考虑全基因组覆盖度。测序深度反映的是目标样本基因组被测序的部分反复被测次数。覆盖度可以表征被测序样本基因组被测范围。当一个样本的测序覆盖度接近100%时可以认为它的基因组被测序接近完整，这样拼接的基因组常用nearly-full length genome进行描述。从分析结果可以，两种测序模式大部分都获得了接近100%的覆盖度。但是扩增子测序有14个样本（约29%）全基因组覆盖度低于90%，有12个样本（约25%）全基因组覆盖度低于80%，基于目标序列捕获的测序方法有18个样本（约26%）全基因组覆盖度低于90%，有15个样本（约21%）全基因组覆盖度低于80%。二者相比基于目标序列捕获的测序方式具有稍高（但是没有明显高）的全基因组覆盖度。如果想拿到SARS-CoV-2全长，保证突变分析的准确性，基于扩增子测序的方式仍然被推荐，因为在基因组覆盖度上，目标序列捕获法并没有凸显出明显的优势。

有一定数据分析经验和较好科研思维的同学看到这两个结果大概率可以推测出两种测序方法都出现了对于某些样本，在基因组的部分区域出现了极端高的测序深度，又在部分区域出现了相当低的测序深度。这是因为，从图1中显示，两种方法测序深度低于100 x的样本数均少于两种方法覆盖度低于90%的样本数。这说明，一部分覆盖度低的样本仍然在全基因组水平上具有较高的平均测序深度。这只能是由于基因组部分区域出现了极端高的测序深度。因此，第三个评价指标。基因组每个窗口的平均测序深度比较。

图3.全基因组分段窗口平均测序深度。绿色注释行代表基于目标序列捕获的全基因组分段窗口平均测序深度；紫色注释行代表基于扩增子测序的全基因组分段窗口平均测序深度。每行根据该窗口测序深度平均值的log10对数进行归一化和标准化。

果不其然，两种方法在全基因组部分位置都存在极低的测序深度。这是因为无论是探针捕获还是引物扩增，都是依赖多个探针或者多对引物进行的目标序列丰度增加。那么这些探针组或引物组中一定会有与目标序列亲和力相对最低，和有效扩增效率相对最低的探针或引物。相比之下，基于扩增子测序的低测序丰度区域较为集中，主要在基因组靠近末端。而基于探针捕获的测序方法在基因组各个区域都分散存在测序深度极低区间。仅仅以这批数据，可以推断上传该公共数据的团队所使用的基于扩增子测序的方法相对更好！

所以如果想选择最好的测序方式对SARS-CoV-2进行更有效地测序，那么基于扩增子测序的方式或许是你的最佳选择（前提是当你是测序小白时，你选择扩增子测序SARS-CoV-2具有相对较高的概率获得较为优质的SARS-CoV-2基因组）这里并不是说基于目标序列捕获的方式不好。由于不同的公司都有自己设计的不同探针组或引物组，这些信息公司一般不会公开。哪些公司具有更好的探针组或引物组需要自己踩坑或者做更多作业以调查。

写在后面的
这仍然不是一个系统全面的比较分析，仅仅在下游分析进行了一定深度的比较。事实上考虑上游实验，还有如下指标值得比较：1.不同样本的病毒Ct值与两种测序方法下基因组测序深度和覆盖度关系，以此可以确定哪种方法在处理低病毒载量的样本中具有更好的表现。2.不同类型的样本在两种测序方法下基因组获取的优质性。3.不同测序公司这两种方法的比较。

《SARS-CoV-2基因组测序专题（二）》来自互联网公开内容，收录仅供学习使用，如侵权请联系删除。本文URL：https://www.ezixuan.com/1020818.html