几周前,我写了一篇简短的测序介绍。这里还有一点,从一个小谜题开始。我正在使用加利福尼亚废水测序数据 ( Rothman et al 2021 ),我发现一个读数与 HIV 部分匹配:
>SRR14530740.1578405 1578405/2 AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCCGTCTGTTGTGTGACTCT GGTAACTAGAGATCCCTCAGACCCTTTTAGTC CTGTCTCTTATACACATCT GACGCTGCCGACGACCTTCGTGATGTGTAGATCTCGGGGGGCGGCGGGG
读取开头突出显示的 83 个碱基与 HIV 基因组开头附近的该部分完全匹配:
>AF033819.3 HIV-1,全基因组 GGTCTCTCTGGTTAGACCAGATCTGAGCCTGGGAGCTCTCTGGCTAACTA GGGAACCCACTGCTTAAGCCTCAATAA AGCTTGCCTTGAGTGCTTCAAGT AGTGTGTGCCCGTCTGTTGTGTGACTCTGGTAACTAGAGATCCCTCAGAC CCTTTTAGTC AGTGTGGAAAATCTCTAGCAGTGGCGCCCGAACAGGGAC ...
这个数据集是用双端读取测序的,这意味着我们可以获得更多关于这个特定基因片段的信息。这是“反向”读取,所以让我们看一下相应的正向读取:
>SRR14530740.1578405 1578405/1 GACTAAAAGGGTCTGAGGGATCTCTAGTTACCAGAGTCACACAACAGACGG GCACACACTACTTGAAGCACTCAAGGCAAGCTCTGTCTCTTATACACATCT CCGAGCCCACGAGACCTTGCCATTAATCTCGTATGCCGTCTTCTGCTTG
当使用双末端读取时,它们以相反的方向相互排序:
正读 --> 5' --------------------------------------------- 3' ||||||||||||||||||||||||||||||||||||||||||| 3' --------------------------------------------- 5' <-- 反向读取
因为他们在不同的方向阅读,你需要反转其中一个阅读,因为他们正在阅读互补链,你需要获取遗传互补。这是正向读取的反向补码,以匹配我们已经看到的反向读取:
>SRR14530740.1578405 1578405/1,反向补码 CAAGCAGAAGACGGCATACGAGATTAATGGCAAGGTCTCGTGGGCTCGGAG ATGTGTATAAGAGACAG AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCC GTCTGTTGTGTGACTCTGGTAACTAGAGATCCCTCAGACCCTTTTAGTC
最常见的是,您的配对末端读取在一起,例如:
[阅读 1] [你没有排序的间隙] [阅读 2]
然而,在这种情况下,它们重叠,允许我们组装更大的序列。有时您可能会遇到读取错误,这两者并不完全匹配,但我们很幸运,并且没有分歧:
CAAGCAGAAGACGGCATACGAGATTAATGGCAAGGTCTCGTGGGCTCGGAG ATGTGTATAAGAGACAG AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCC GTCTGTTGTGTGACTCTGGTAACTAGAGATCCCTCAGACCCTTTTAGTC CT GTCTCTTATACACATCTGACGCTGCCGACGACCTTCGTGATGTGTAGATCT CGGGGGCGGCGGGG
现在有一个难题:两者的重叠部分恰好是与 HIV 匹配的序列。这不是您希望偶然看到的东西,对吧?两个序列之间有多少重叠(或距离)应该是不可预测的。那么,为什么会这样呢?
在测序过程中,您的输入 DNA 片段会在其末端粘上更多的 DNA(“适配器”),以允许测序仪对其进行操作。在目标序列的开头(5′ 端),这很有效:测序使用适配器来确定从哪里开始读取,然后几乎总是从原始片段的第一个碱基开始。但是,如果您的初始片段非常短,它将超过原始序列的末尾并进入适配器。 Illumina 有一些文档,其中包含解释该过程的数字。
以下是原始读数再次突出显示 HIV 匹配之后的部分:
>SRR14530740.1578405 1578405/2 AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCCGTCTGTTGTGTGACTCT GGTAACTAGAGATCCCTCAGACCCTTTTAGTC CTGTCTCTTATACACATCT GACGCTGCCGACGACCTTCGTGATGTGTAGATCTCGGGGGGCGGCGGGG >SRR14530740.1578405 1578405/1 GACTAAAAGGGTCTGAGGGATCTCTAGTTACCAGAGTCACACAACAGACGG GCACACACTACTTGAAGCACTCAAGGCAAGCT CTGTCTCTTATACACATCT CCGAGCCCACGAGACCTTGCCATTAATCTCGTATGCCGTCTTCTGCTTG
对于本文中使用的套件,该序列是适配器的开始,从该位开始的任何内容都不是我们输入片段的一部分。
移除适配器后,我们只剩下:
>SRR14530740.1578405 1578405/2 AGCTTGCCTTGAGTGCTTCAAGTAGTGTGTGCCCGTCTGTTGTGTGACTCT GGTAACTAGAGATCCCTCAGACCCTTTTAGTC >SRR14530740.1578405 1578405/1 GACTAAAAGGGTCTGAGGGATCTCTAGTTACCAGAGTCACACAACAGACGG GCACACACTACTTGAAGCACTCAAGGCAAGCT
现在,这与 HIV 完全匹配,最后没有任何垃圾。大多数质量控制流程都包含一个删除接头的步骤,就像它们删除我上次描述的 poly-G 序列一样。