5月中旬,针对草地贪夜蛾的迅速发展态势,包括深圳华大生命科学研究院在内的多个单位共同成立研究小组,迅速开展了样本采集和基因组测序工作,从样本采集到论文发表 [1],仅用25天便完成了全球首个草地贪夜蛾染色体级别的基因组组装。
基因组测序的完成,打开了草地贪夜蛾防治的第一步,除解释了草地贪夜蛾高耐药性的可能分子机制之外,还提供了更为精细的类别信息,为该害虫的防治工作提供了可借鉴信息。
草地贪夜蛾基因组的快速解码,国产基因测序仪MGISEQ-2000和新一代单管长片段测序stLFR(single tube long fragment reads)迅速响应, 再现其非凡潜力。为造福更多的下游数据分析应用,华大算法开发团队针对stLFR数据结构特点开发了stLFR de novo组装软件。
那么,什么是stLFR 单管长片段测序技术呢?
这是一个拥有超强的虚拟分隔共标记技术(Virtual Co-Barcoding),通过单管操作就能轻松的获得基因组长片段信息[2]。只需要在单管中加入1-1.5ng HMW gDNA,这些DNA分子3000万种标签序列结合后,stLFR技术就可以在单管中对超过八百万条跨度在20,000到300,000bp的长片段进行特异性地共标记(图1)。使用stLFR组装软件,通过高效地利用庞大的barcode信息进行组装,就能获得更完美的基因组组装效果,让动植物基因组组装变得更加简单,经济,快速。
华大智造开发的这款与stLFR技术配套的组装软件,其特点在于可以充分利用stLFR数据的barcode信息指导组装,同时还支持stLFR与三代数据的混合组装。其前期数据预处理主要包括拆barcode、过滤低质量reads、duplicate和adapter两个部分,后期组装分为纯stLFR组装和加入三代数据混合组装两个阶段,可根据实际情况进行选择。
数据展示
通过对3组不同深度的NA12878数据进行组装测试,最长contig N50可达到57Kb,覆盖度均达到92%以上。其中,数据来源是采用MGIEasy stLFR 文库制备试剂盒(货号: 1000005622),以1.5ng为起始量构建的文库。
表1 stLFR NA12878数据组装结果表
运行资源
运行资源以数据预处理后30x的NA12878为标准,组装全过程耗时约2.6天,80线程条件下,消耗内存408G,最大占据存储空间1TB左右。其前期数据预处理最大消耗内存50GB,占26.9小时;后期组装在开设80线程的条件下,最大消耗内存408GB,占36.3小时。具体资源消耗可看下方表格:
表2 stLFR组装消耗资源统计表
软件列表
表3 stLFR组装所需软件列表
参考文献
[1] Huan Liu, Tianming Lan1, Dongming Fang, et al. Chromosome level draft genomes of the fall armyworm, Spodoptera frugiperda (Lepidoptera: Noctuidae), an alien invasive pest in China
[2] Wang O, Chin R, Cheng X, et al. Efficient and unique co-barcoding of second-generation sequencing reads from long DNA molecules enabling cost effective and accurate sequencing, haplotyping, and de novo assembly[J]. Genome research, 2019: gr. 245126.118.