水稻,作为是世界上重要的粮食作物之一,为全世界超过35亿人的主食,维系超过10亿人的生计。因此,稻米对全球粮食安全至关重要,提升稻米生产系统的效率是应对粮食安全挑战的关键一环。野生近缘种为水稻提供了宝贵的遗传资源。生长于西非热带地区的长雄野生稻(又称非洲野生稻,Oryza longistaminata)表现出多年生生长和极高的生物量生产能力,相关有益等位基因已经被转移到商业水稻品种中。除了对育种的贡献外,长雄野生稻也是研究根茎遗传基础和发育方面的重要研究对象。
长雄野生稻 (2x=2n=12) 主要生长在西非的热带地区,是一种AA基因组型,主要生长在靠近淡水资源和沼泽的地区。虽然很少用于人类食用,但该物种具有抵抗力高、根茎无性繁殖和生物胁迫等多种有益的特性。由于测序技术限制和基因组复杂的组织结构,此前的非洲野生稻的参考基因组中仍然存在未被充分展现的复杂区域,这限制了对其开展深入且详尽的研究工作。
为解决这一问题,近日,华大研究院联合云南大学,依托华大序风的CycloneSEQ纳米孔测序平台,完成长雄野生稻343 Mb的端粒到端粒(T2T)的基因组组装,涵盖了12条染色体上的所有端粒和着丝粒,新组装的基因组比以前版本有了明显的改进,为栽培稻野生近缘种中有益等位基因的探索和开发提供了宝贵的资源。
基因组组装
对培育的长雄野生稻嫩叶提取DNA后进行测序,获得25.6 Gb CycloneSEQ超长序列数据,21 Gb MGI-Seq双端测序数据,27.3 Gb PacBio HiFi数据,32 Gb Hi-C数据。使用K-mer评估基因组大小为357 Mb,杂合度为1.27%。混合组装首先获得了一个343 Mb基因组,contig N50为26.02Mb,随后使用Hi-C数据将组装序列合并为12个假染色体,使用TGS-gapcloser填补剩余空白。利用端粒重复序列鉴定到基因组全部的24个端粒,鉴定到染色体的着丝粒区域长度在0.3 Mb至1.8 Mb之间。在组装基因组准确性和完整度评估方面,双端测序数据比对率达97.27%,BUSCO分析完整度达到98.6%,LTR组装指数(LAI)为20.71(符合参考基因组金标准),Merqury组装质量QV值达到52.08(即碱基准确率高于99.999%)。与之前已发表的长雄野生稻基因组(Reuscher et al., 2018)进行编码基因共线性比较分析,在基因组范围鉴定出28,627个共线性编码基因,与预期一致,表明组装的T2T基因组与已发表的基因组具有高度一致性。
基因组注释
使用从头分析和同源比较分析,在基因组中鉴定出134 Mb重复序列,大约占全基因组的40.73%。重复序列在12个染色体和全基因组水平上高度一致。LTR和DNA转座子为主要的重复单元,分别占据大约20.9%和18.5%。重复水平达到中度,与其他稻属的其他基因组相近。基因组的着丝粒由于其高度重复,组装难度较高。本次组装的T2T基因组发现着丝粒区域饱含转座元件并只含有少量基因。着丝粒区域中, LTR中大部分为Gypsy元件。
基因组中预测出有33,177个编码基因,平均长度2,439 bp,平均编码序列长度达到1,138 bp。功能分析显示95.74%的编码基因可在蛋白公共数据库被注释,展示了基因预测的准确性高。
长雄野生稻的T2T基因组组装
(从外到内:GC含量、蛋白编码基因、重复序列、LTR-Gypsy、HTR-Copia、共线性区块)
基因组结构变异
栽培稻与长雄野生稻的全基因组结构变异推测发现,两个基因组间包含3,738,150个SNP位点,204个倒置区块,11,706个重复区域,11,175个倒置重复,3,077个移位和3,015个倒置移位。超105 Mb的结构变异显示出两个物种间的巨大差异。GO分析结构变异相关基因展示出与催化活性、嘌呤核糖核苷酸结合、腺苷核糖核苷酸结合和端粒维持的相关性。
栽培稻与长雄野生稻T2T基因组的共线性分析和变异分析
(Reference基因组为 O. sativia,Query基因组为 O. longistaminata)
基因组片段重复分析
片段重复(Segmental Duplications, SDs)是指基因组中大于1 Kb的至少有90%序列一致性的重复片段。SD中常含大量重复基因,在基因创新中有重要作用。先前基因组中不准确的SD注释限制了基因组结构和进化的理解。长雄野生稻的T2T基因组提供了SD研究更准确的参考信息。使用BISER工具一共鉴定出30.2 Mb的SD,并发现在基因组水平并非均匀分布。SD在1/4/3/2号染色体中含量更高,在9/10/5号染色体中更少。该不均匀分布提示1/4/3/2号染色体可能对水稻进化中的作用方式为先前未知的。
使用BLASTP在SD区域鉴定重复基因,一共发现4,179对同源基因,1,233对为高度匹配,并发现大部分SD是近期发生(Ks=0.3)。GO分析显示这些等位基因与细胞氨基酸代谢、羧酸代谢和辅因子结合相关。
长雄野生稻基因组的片段复制分析
NBS基因家族和转录因子
核苷酸结合位点-亮氨酸富集重复单元(NBS-LRR)蛋白为植物对抗病原体的抗性蛋白的最大的家族。11种水稻的NBS-LRR分析发现,长雄野生稻有654 NBS-LRR基因,比其他物种基因更少,即抗性基因更少。说明长雄野生稻对病原体的识别和免疫识别的能力进化。
稻属内的转录因子差异分析,长雄野生稻拥有86个家族共计2095个转录因子,其中ERF转录因子数量最多(857个),其次是bHLH(128个)、NAC(120个)、MYB(119个)和C2H2(116个)。
总结
本研究依托华大序风CycloneSEQ平台成功组装了长雄野生稻的端粒到端粒(T2T)的基因组,该基因组包含完整的12条染色体及24个端粒。与已发表的稻属其他的参考基因组比较发现栽培稻和野生稻之间众多的基因组结构变异。本研究还对长雄野生稻与稻属其他物种的基因组进行片段重复基因、NBS-LRR抗性基因和转录因子的比较分析。长雄野生稻全基因组组装的更新成果对高价值的表型性状关联基因研究提供了证据基础,对未来育种和非洲水稻与稻属进化研究搭建了高价值平台。
预印文章链接:
https://www.biorxiv.org/content/10.1101/2024.09.05.611405v1