新一代测序的出现,让科学家们能够更快地实现基因组测序,且成本比Sanger测序要低得多。但是,这是以牺牲读长为代价的,平均读长从Sanger测序时的800-900 bp降低如今的100 bp左右。短的读长让基因组组装更加困难,因为需要更深度覆盖才能产生相当的组装。为了解决这一问题,Worley及其同事近转向了Pacific Biosciences公司的PacBio RS平台。
然而,有些问题是更深度覆盖也无法弥补的。对于de novo组装,长度超过读长的重复序列会产生缺口,导致近年来更多片段化的组装。因此,我们很难检测重复区域的变异,而这些对了解某些疾病可能很重要。
对此,贝勒医学院人类基因组测序中心的遗传学家Kim Worley谈道:“令人沮丧的事情是100 bp读取中没有太多的信息内容。”她指出,在恒河猴的基因组草图中,高达20%的基因模型都含有缺口。
Worley表示:“我们已经完成了人类基因组和小鼠基因组,而其他一切都仍未完成。即使是已经完成的基因组,也有并不*连续和正确的区域,而用户对那些区域的数据总是不满意。”
为了解决这一问题,Worley及其同事近转向了Pacific Biosciences公司的PacBio RS平台。这是一种第三代测序技术,能够实时开展单分子测序反应。该系统的平均读长在几kb,而某些情况下的大读长能达到30 kb。
这些长的序列读取简化了基因组组装,因为它们能够跨越重复区域,而且不需要DNA的扩增,从而减少了某些测序假象和基因组覆盖偏向。因此,PacBio RS平台产生的长读取无GC偏向或系统误差,适用于基因组组装的升级。
正如去年在《PLoS ONE》上介绍的,Worley及其同事开发出一种自动的软件工具,名为PBJelly。1 它能够将PacBio长读取与组装草图比对,关闭或改善缺口,同时保留注释。研究人员将这种方法应用在四个基因组上,解决了63%-99%的缺口,能关闭32%-69%并改善12%-63%。
PacBio的科学官Jonas Korlach表示:“我们正在经历一场复兴,一场已完成基因组的复兴。在Sanger测序的年代,这是惯例,但是当新一代技术到来时,它几乎被抛弃,因为几乎不可能通过Sanger测序来结束那些基因组。”
从原理上说,PBJelly适用于任何平台所产生的长序列读取。不久之后,当新一代测序公司赶上PacBio的读长时,这一特征就显得尤为重要。
正在朝这一方向努力的是Illumina公司。不久前,它收购了Moleculo公司,该公司开发的技术让大的DNA片段可在Illumina标准测序系统上进行测序,随后组装成合成的长读取。来自每个分子的短序列读取分别组装,终结果是所有片段的完整序列。从本质上讲,短读取数据重建成长读取。
在1月份召开的动植物基因组大会上,一组科学家报告称,Moleculo技术可利用Illumina HiSeq2000平台,产生长度跨越1.5-15 kb的准确DNA测序读取。
另一个长读取技术的范例是454的GS FLX+系统,它带来了长度达1000 bp的读取。眼下,一个研究协作组正在利用这种测序技术来分析和组装RP11人类参考基因组,试图关闭缺口并发现基因组序列中的新基因。
454生命科学研发部门的副总裁Todd Arnold表示:“454一直以高质量、长读取而著称。”随着读长和通量逐步上升,“我们在增加读长时也力争保留我们的质量值,因为这对我们的客户非常重要。”
但根据Korlach的说法,现有的其他技术都无法与PacBio抗衡。他表示,目前存在根本的技术差异和限制,使得其他技术无法提供PacBio的连续读长。
不过,PacBio长读取技术也有缺点,那就是错误率高。尽管通过环化测序可实现高度准确的测序结果,但PacBio RS仪器产生的单向读取,平均准确性只有87-89%。该公司负责产品管理的总监Edwin Hauw表示:“我们正在努力改善这一点,但准确性仍将在很长一段时间内低于其他现有技术,因为我们的技术是基于单分子的实时检测。”
东京大学的计算生物学家Michiaki Hamada对那些错误率不以为然。“在我看来,这些高错误率不会带来严重的问题,因为大部分错误可通过低错误率的短读取来校正,比如Illumina测序仪所产生的那些。”
在近的一项研究中,Hamada及他的团队开发出一种名为PBSIM的读取模拟器,它捕获了PacBio读取的主要特征。Hamada表示,他们的长期目标是开发出适用于长读取的de novo组装程序,但目前还没有模拟器能针对PacBio文库的生成。
Hamada及其同事利用PBSIM来分析13个PacBio数据集,结果发表在《Bioinformatics》上。2 在开展PacBio读取的混合纠错和组装检测之后,他们发现,通过覆盖深度少为15的连续长读取,再加上覆盖深度少为30的循环测序,可获得大量的组装结果。Hamada表示:“PBSIM不仅可用于组装程序的评估,可能用于测序的实验设计。”
由于参考基因组中的缺口可能包含了与疾病相关的基因,故长读取技术的利用对临床领域有重大影响。例如,Arnold及其同事鉴定出一个可能参与癌症发展的区域。“有证据表明该基因来自早期的RNA序列数据,但它并未出现在参考基因组中,因此开展重测序研究的人员看不到。参考文库越完整,你以积极方式使用这些数据的能力就越强。”