种质资源是作物遗传改良的基础。近年来高通量测序技术的发展已为解析作物种质材料的遗传变异和基因功能提供了大量的组学数据。单分子测序技术的发展也帮助构建了重要作物的多个参考基因组,为高质量泛基因组的构建提供了基础。整合这些组学数据将大大有利于对其的重复利用和深度挖掘。预期随着高通量表型采集技术的发展,育种大数据体量将不断增加,数据的整合和分析将越来越困难,因而建立一个通用的育种组学大数据整合分析平台对作物基因功能研究人员和育种工作者都至关重要。
梁承志团队多年来在高质量基因组组装和注释的基础上,致力于构建一个整合的作物组学知识库。该知识库旨在揭示种质材料的基因型以及跟表型信息在群体中的关联,设计了各类育种相关的组学数据的存储规范,适用于整合多物种种质信息、多参考基因组和泛基因组,尤其是海量的群体基因组重测序数据的存储和展示。目前该知识库的水稻子库展示了两个参考基因组和基因信息(另一个参考基因组数据也将很快公开)及近7000余份全球水稻重测序数据,大量水稻种质资源信息数据,400多万条表型记录值,1.3万个已知基因的功能注释等。在这些重测序的水稻种质资源遗传信息中,蕴含着大量的可用于改造水稻品质、增加抗性、提高产量的优良等位基因。通过在线用户自定义基因分型与表型数据的关联展示,首次实现了在线基因型到表型大数据的可视化实时展示。该知识库在基因型水平上进行多功能软件开发,实现了基于基因型的种质筛选、个体比较、变异分析、基因型在线注释等复杂功能。此外,该知识库具备数据的动态扩展功能,适于收集和导入新的作物群体重测序数据,并能够与原有数据集进行整合分析。水稻子库的建立也为其他作物比如大豆、小麦和玉米奠定了一个良好的基础。
论文第一作者为梁承志研究组博士生彭骅,梁承志为通讯作者。数据库开发得到基因组分析平台的大力支持和帮助。数据库设备也得到植物基因组学国家重点实验室的支持。该研究得到中科院战略性先导科技专项(A)“分子模块设计育种创新体系”等的资助。