3月18日,北京市农林科学院玉米研究中心分子检测团队在国际知名植物学期刊Frontiers in Plant Science在线发表题为“Variety Discrimination Power: An Appraisal Index for Loci Combination Screening Applied to Plant Variety Discrimination”的研究论文,提出了品种识别率的概念并定义其三种统计方法,作为植物品种鉴定分子标记位点组合筛选的评价指标。
分子标记技术是分子育种和分子检测等应用领域的主流鉴定方法,为了降低该技术的试验成本、提高数据分析效率,分子标记组合的筛选评估已成为数据分析的关键步骤。本研究结合植物品种分子鉴定需求和标记组合筛选特点,提出了位点组合评价指标——品种识别率(VDP)的概念及其三种统计方法:概率型品种识别率(P-VDP)、比对型品种识别率(C-VDP)、绝对型品种识别率(R-VDP),并用渐变品种差异模拟数据和真实SSR、SNP数据测试不同方法对品种差异灵敏度,分析品种阈值设定对不同方法的影响,验证不同方法对数据缺失的敏感度。
本研究结果表明,在识别模拟数据品种差异方面,对于向一个品种趋同的样本总体,品种识别率有灵敏度而累积个体识别率(TDP)只在部分样本总体有效;对于向多个品种趋同的样本总体,R-VDP灵敏度最高,P-VDP和C-VDP灵敏度相同且次之,TDP没有灵敏度(图1);在识别真实数据品种差异时, R-VDP对高粱、小麦、玉米、水稻数据开始出现下降趋势的位点数量分别为20、7、100、100,P-GDP和C-GDP的统计值完全一致,同样对上述四个物种数据开始出现下降趋势的位点数量分别为6、4、9、19,TDP的则为6、4、4、11(图2);在品种阈值设定方面,不同位点数构成的位点组合的R-VDP值对阈值调整的响应均衡,C-VDP对阈值调整的响应则不均匀,响应程度随位点组合的位点数减少而增加;在数据缺失影响方法,数据缺失对位点组合评价方法均会造成欠估计的影响,系统误差从小到大依次为TDP、C-VDP、R-VDP。
图1、位点组合四种评价方法对品种差异渐变模拟数据的灵敏度
图2、位点组合四种评价方法对位点数量渐变真实数据的灵敏度
在植物品种鉴定领域,品种识别率比累积个体识别率更适合作为位点组合的评价指标;在数据缺失可控且对品种差异灵敏度高要求的前提下,品种识别率可采用R-VDP方法;在数据缺失不可控且对品种差异灵敏度低要求的前提下,品种识别率可采用C-VDP方法;在对品种识别率的概念做理论推导时,品种识别率可采用P-VDP方法。为了进一步推进位点组合评估方法的应用,我们开发了一个简便、通用、兼容多种标记类型的分析工具“VDPtools”(图3),用于计算指定位点组合的TDP、P-GDP、C-VDP和R-VDP,该工具可在Windows运行环境下使用。
VDPtools的下载链接为:https://github.com/caurwx1/VDPtools。
图3、VDPtools工具主界面
杨扬博士、田红丽博士为论文第一作者,赵久然研究员和王凤格研究员为通讯作者。相关工作得到了国家重点研发计划、北京学者计划的支持。
原文链接:https://www.frontiersin.org/articles/10.3389/fpls.2021.566796/full