浙江大学生命科学学院 徐冰
浙江杭州 310029
1 国内外研究现状
拟南芥(Arabidopsis thaliana)是一种模式植物,具有基因组小(125 Mbp)、生长周期短等特点,而且基因组测序已经完成(The Arabidopsis Genomic Initiative, 2000)。同时,拟南芥属十字花科(Cruciferae),具有高等植物的一般特点,拟南芥研究中所取得成果很容易用于其它高等植物包括农作物的研究,产生重大的经济效益,特别是十字花科中还有许多重要的经济作物,与人类的生产生活密切相关,因此目前拟南芥的研究越来越多地受到国际植物学及各国政府的重视。
从遗传学的观点来看,基因克隆的途径可概括为正向遗传学和反向遗传学两种。正向遗传学途径指的是通过被克隆基因的产物或表现型突变去进行;反向遗传学途径则指的是依据被克隆基因在染色体上的位置来实现。虽然一些模式生物(如拟南芥)的基因组测序已经完成,但还有40%的基因(在拟南芥中)的功能还是未知的。
图1 图位克隆所需努力的比较(1995年和2002年)(Jander等, 2002)
图位克隆(map-based cloning)又称定位克隆(positional cloning),1986年首先由剑桥大学的Alan Coulson提出(Coulson等,1986),用该方法分离基因是根据目的基因在染色体上的位置进行的,无需预先知道基因的DNA序列,也无需预先知道其表达产物的有关信息。它是通过分析突变位点与已知分子标记的连锁关系来确定突变表型的遗传基础。近几年来随着拟南芥基因组测序工作的完成,各种分子标记的日趋丰富和各种数据库的完善,在拟南芥中克隆一个基因所需要的努力已经大大减少了(图1)。
目前完成整个拟南芥的图位克隆过程大约需要一年时间。在这个过程中,我们从筛选突变体开始,逐渐找到和表型相关的基因。这和反向遗传学的方法正好相反。图位克隆能实现,关键在于全基因组测序计划的完成和各种分子标记的发现。这些数据被储存在专门的数据库中(表1)(Lukowitz等, 2000)。在拟南芥中的图位克隆,在很大程度上得益于对Col-0生态型测序的完成,因为它是在研究拟南芥时最常用的生态型。
实现基因图位克隆的关键是筛选与目标基因连锁的分子标记。实质上,分子标记是一个特异的DNA片段或能够检出的等位基因,对其有效地利用即可达到图位克隆基因之目的。迄今为止,已有几十种技术可用于分子标记的筛选(Wang等,2000)。其中最为常用的是简单序列长度多态性(SSLPs)(Lukowitz等, 2000; Choe等, 2002; Gonzalez-Guzman等, 2002)。和单核苷酸多态性(SNPs)(Rafalski, 2002)。SSLP是基于PCR的分子标记,在拟南芥基因组中有较多分布,而且是共显性的,它的检测非常直接,但是我们需要设计引物来检测假定的SSLP标记;对SNPs标记的检测也比较直接,它是拟南芥不同生态型之间基因组中的单个核苷酸的差别,这些差别的核苷酸通常位于不编码区域(Peters等, 2003)。最常见的用于检测SNPs标记的方法主要是剪切扩增多态性序列(CAPS),它也是基于PCR的。另外,一种更为有效的方法衍生的CAPS(dCAPS)(Nam等, 1989; Michaels 和 Amasino, 1998)可把任何已知的点突变作为分子标记,只要在PCR是引入不配对的引物,使扩增的序列在一个生态型中具有限制性酶切位点,而在另一生态型中没有,以形成多态性。
图位克隆法随着相关配套技术(序列数据库、分子标记等)的日渐成熟,许多拟南芥及一些农作物的基因已被成功的克隆(表2)。本文拟对图位克隆的研究进展做一介绍,以期对植物遗传育种和分子生物学研究有所帮助
表1 拟南芥网络资源
网站
|
网址
|
Supplemental material for this paper
|
http://carnegiedpb.stanford.edu/methods/ppsuppl.html
|
Nottingham Stock Centre(U.K.)
|
http://nasc.nott.ac.uk/
|
Recombinant Inbred map
|
http://nasc.nott.ac.uk/new_ri_map.html
|
Ohio Stock Center(U.S.A.)
|
http://aims.cps.msu.edu/aims/
|
TAIR database*, homepage
|
http://www.arabidopsis.org
|
Recombinant Inbred map(mirror site)
|
http://www.arabidopsis.org/cgi-bin/maps/Riintromap
|
CAPS markers
|
http://www.arabidopsis.org/aboutcaps.html
|
Sequence table
|
http://www.arabidopsis.org/cgi-bin/maps/Seqtable.pl
|
SNP collection
|
http://www.arabidopsis.org/SNPs.html
|
CEREON collection of polymorphisms
|
http://www.arabidopsis.org/cereon
|
SSLP markers
|
http://genome.bio.upenn.edu/SSLP_info/SSLP.html
|
TIGR, genome annotations
|
http://www.tigr.org/tdb/athl/htmls/index.html
|
Database of Ler sequences
|
http://www.tigr.org/tdb/atgenome/Ler.html
|
Kasuza DNA Research Institute, genome annotations
|
http://www.kazusa.or.jp/kaos/
|
MIPS genome annotations
|
http://websvr.mips.biochem.mpg.de/proj/thal/
|
SINS database of transposon insertions
|
http://www.jic.bbsrc.ac.uk/sainsbury-lab/jonathan-jones/jjhome.htm
|
*注:The Arabidopsis Information Resource (TAIR)
|
2 图位克隆的一般过程
因为有了拟南芥的基因组序列和高密度的遗传标记,图位克隆过程就变得相对直接。图2例举了一种高效的拟南芥图位克隆方法。从基于Col-0和Ler遗传背景的突变体出发,我们有可能在大约一年时间内找出与这个突变相关的基因,这其中主要耗时间的是五个植物(拟南芥)的生长周期(我们假定每个周期为两个月)。
作为作图过程的第一步,突变体植株将和另外一个生态型(Col-0或者Ler)的植株杂交。在大多数情况下,用于杂交的突变体植株是作为父本还是母本是没有关系的。然后播种F1代种子。在F1代植物的生长过程中,我们就有可能来对其表现型和基因型进行分析。F1代植物的表型的出现或者消失将显示着我们所研究的突变是显性的还是隐性的。最好通过对一些标记的分析来确认F1代植物是杂合体,而且在杂交过程中我们没有犯错误。当然也有必要确认原来的生态型背景。
表2 用图位克隆方法得到的拟南芥及一些农作物的基因
基因
|
突变表型
|
基因同源序列
|
AB13 |
脱落酸不敏感
|
玉米转录子
|
FID3
|
降低亚油酸饱和度
|
细菌去饱和酸酶
|
AXR1
|
生长素抗性
|
泛素N 端活性酶
|
ETR1
|
乙烯抗性
|
双因子调节子
|
ABI1
|
脱落酸不敏感
|
钙调蛋白磷酸化酶
|
DET1
|
黄化损伤反应
|
新核蛋白
|
RPS2
|
抗病
|
新型富含亮氨酸的蛋白酶
|
RPM1
|
抗病
|
激酶
|
RSW1
|
纤维素合成酶
|
细胞色素P450 家系
|
ZLL
|
调节中茎分生
|
细胞胚胎发育蛋白
|
PRT1
|
抑制胞间蛋白降解
|
控制植物N 端代谢
|
Tornadol
|
植株短化
|
——
|
IFL1
|
正常的维管束间纤维分化受阻
|
亮氨酸拉链蛋白
|
ARA1
|
树胶醛糖激酶活性丧失
|
半乳糖激酶基因家族
|
VTC2
|
维生素C合成不足
|
果蝇蛋白CG3552,线虫蛋白C10F3.4(功能未知)
|
AST
|
种皮花青苷斑点
|
花青苷生物合成途径中的二氢黄酮醇-4-还原酶
|
图2 图位克隆过程示意图(Jander等, 2002)
F1代植物自交得到F2代种子,大约播种600个个体以进行突变基因的粗定位(first-pass mapping,图2)。在其生长过程中,我们可确定其表型,大约有150个个体被认为是纯合体(在隐性突变的情况下是纯合突变体,在显性突变的情况下是纯合野生型)。然后从这150个个体的叶子或者其它组织中制备DNA用于基因型分析。起先用分布于拟南芥五条染色体上的25个标记(相邻的两个标记之间大约相距20 cM)进行分析,确定突变基因是和哪个或者哪几个标记是连锁的,然后用三点测交的方法来定义一个包含突变基因的大约20 cM的遗传间隔。一旦这样的一个遗传间隔被定义之后,接下来的工作就是引入新的标记把这个间隔缩小到大约4 cM。一般来说,利用150个F2代个体是在很大程度上能找到这样一个遗传间隔的,距离突变基因最近的两个分子标记将作为侧面标记而用于下面的进一步分析。
下一步我们将播种一个更大的F2代群体用于突变基因的精细定位(fine-resolution mapping,图2)。最终目标是将包含突变基因的遗传间隔缩小到40 Kb甚至更小(这在拟南芥中大约是0.16 cM)。显然用于作图的F2代植物越多,就越能精确地定位突变基因。一般需要3000~4000个F2代植物个体(包括粗定位时的600个F2代植物个体)来精确地定位突变基因。但是也有很多图位克隆过程用了少于3000个F2代植物个体就成功地定位了突变基因(Lukowitz等, 2000)。但是这往往要冒因为作图群体不够大再一次种植F2代植物而延长整个作图过程的时间的风险。
在这个大约4 cM的遗传间隔内找到与突变更紧密连锁的分子标记,一般情况下能在突变两侧找到相距小于40 Kb的两个分子标记。一旦这样的两个分子标记被找到之后,就可以通过测序来找到突变基因。一种有效的方法是设计PCR引物来扩增覆盖这40 Kb的多个重叠的500 bp的片段。将这些片段测序后拼接起来以得到整个40 Kb的序列,然后将它与野生型植物(Col-0或者Ler)的序列进行比对,这就可以找到这个区域中的多个基因。从一系列侯选基因中鉴定基因是定位克隆技术的最后一个关键环节。现在最常用的方法是用含有目标基因的大片段克隆如BAC克隆或YAC克隆去筛选cDNA文库,并查询生物数据信息库,待找出侯选基因后,把这些侯选基因进行下列分析以确定目标基因:(1)精确定位法检查cDNA是否与目标基因共分离;(2)检查cDNA时空表达特点是否与表型一致;(3)测定cDNA序列,查询数据库,以了解该基因的功能;(4)筛选突变体文库,找出DNA序列上的变化及与功能的关系;(5)进行功能互补实验,通过转化突变体观察突变体表型是否恢复正常或发生预期的表型变化。功能互补实验是最直接、最终鉴定基因的方法。利用新兴的RNA干扰(RNAi)也可有效地确定目的基因。
3 存在的问题
图位克隆也有其自身的局限性,在某些情况下,就很难或者不能通过图位克隆技术来定位基因。
在分析自然发生的变异的时候,我们最有可能遇到的复杂情况是一个给定的性状是由不止一个的基因位点控制的。例如,在Kashmir-1(有抗性的)和Columbia(敏感的)株系之间的杂交实验中,我们发现粉状霉菌抗性基因至少涉及三个遗传位点,它们是以附加的方式起作用的(I.Wilson, C. Schiff, 和 S. Somerville,个人交流)。对这些抗性基因中的任何一个作精细定位都要求降低作图群体的遗传复杂性,例如通过创造只有一个位点保持多态性的重组近交系。在拟南芥的株系之间杂交时,很多种性状是由一个或多个遗传位点控制的,其中包括开花时间,种子大小,冬眠,生理节律,次生代谢以及表皮毛的密度(综述见Alonso-Blanco 和 Koornneef,2000)。无论何时,当影响这些性状的自然或者诱导的突变被定位的时候,第二位点修饰成分会干扰这些分析。
表观(上位)遗传突变这个术语是描述一个基因在表达和功能上的可遗传改变,而不涉及DNA序列的改变(综述见Wolffe 和 Matzke,1999),这是图位克隆工程中又一个可能的复杂情况。已有文献很好地证明的是花发育基因SUPERMAN的后生clark kant等位基因(Jacobson 和 Meyerowitz,1997)。这些等位基因是可遗传的,但它们不稳定有一个小的回复率。它们在SUPERMAN基因的DNA序列中都具有相似的胞嘧啶甲基化现象,结果,有可能减少了SUPERMAN基因转录子的表达。它们中没有一个是和SUPERMAN的DNA序列改变联系在一起的;尽管如此,它们能被带有SUPERMAN基因的转基因所补充。目前,对于这种表观遗传突变是怎么产生的以及它们出现的频率知道的不多。
关于染色体上位点的物理和遗传距离的比值是变化的。通常这种变化是比较小的,对作图的分辨率也只有较小的影响(Copenhaver等,1998)。但是,有证据表明有些染色体区域是例外的。例如,对GURKE基因的图位克隆就非常困难,这个基因的定位接近于第一条染色体的着丝粒;在着丝粒附近重组是严格限制的,使得对它精细定位的努力非常无效。而且,在这个区域中重复DNA单元的广泛分布使我们辨认出散布的单拷贝序列,这些单拷贝序列能产生有疑问的遗传标记(R. Torres Ruiz,个人交流)。这个发现是经过对第二条染色体上的物理和遗传距离之间的比值的系统地分析之后确认的(Lin等,1999)。对这条染色体的几乎全序列,1%重组的遗传距离相当于100~400 Kb的物理距离,平均是250 Kb。然而着丝粒区域是一个显著的例外,在这里1%重组的遗传距离相当于1000~2500 Kb。看来值得指出的是在现存的物理图谱中,拟南芥的五个着丝粒是没有一个被完全覆盖的。最近对着丝粒区域的分析显示这些区域通常包含重复的DNA和几乎不含表达的基因(Copenhaver等,1999)。因此,由于接近着丝粒,应该没有拟南芥基因是不服从图位克隆策略的。
除了着丝粒,第二条染色体上也有一个小片段上1%重组的遗传距离相当于1000 Kb甚至更多。根据推测,观察到的低重组率现象可能是由于被用于作图分析的株系的DNA序列的重排(Lin等,1999;Mayer等,1999)。第二和第四条染色体的DNA序列的比较显示有些基因片段是在这两条染色体之间被复制的(其中一个片段的大小是4.6 Mb),还有一个从线粒体基因组向第二条染色体转移的DNA片段(Lin等,1999)。这些发现清楚地证明了拟南芥基因组的结构是可以不断改变的。因此,不同株系之间的遗传变异可能不仅仅是由点突变和DNA重排导致的,这就从根本上给图位克隆工程造成了严重的问题。举例来说,如果在两个株系之间发生倒转的一个大约500 Kb的序列被用于形成的一个作图群体,所有发生在这个倒转内的重组事件将产生不育的减数分裂产物。因此,不可能在这个倒转序列内对突变进行作图。到目前为止,发生在常见株系之间的这样的DNA重排还没有被报道过,确实应该是这样,因为它们很难被检测到。在一个作图实验中,它们的出现将很有可能被忽视直到最后一步。
有时候,T-DNA插入和辐射也被观察到能导致DNA的重排(Shirley等,1992;Nacry等,1998;Laufs等,1999;Ogas等,1999)。因此,当被作图的突变是由这些方法产生的时候,类似的困难也有可能产生。但在这些情况下,至少有一定的可能性突变是和重排的一个或两个断裂点有关。
4 前景展望
目前,在拟南芥中的图位克隆已经不仅仅是一些专注的(和持久的)专家的工作了,而是每个人都能完成的工作。在过去的几年中,产生了很多便宜但功能强大的工具,同时也有大量的信息被收集在免费的数据库中。利用这些资源,目前大部分的图位克隆工程应该是可以肯定的,直接的,也是简单的。随着我们对拟南芥基因组结构和变化的认识的增长,情况将进一步改善,因为这将有助于我们消除部分上面提到的仍然存在的复杂情况,或者至少使得它们可被控制。
参考文献
1. Choe,S., Schmitz,R.J., Fujioka,S., Takatsuto,S., Lee,M.O., Yoshida,S., Feldmann,K.A., and Tax,F.E. (2002). Arabidopsis brassinosteroid-insensitive dwarf12 mutants are semidominant and defective in a glycogen synthase kinase 3 beta-like kinase. Plant Physiology 130, 1506-1515.
2. Gonzalez-Guzman,M., Apostolova,N., Belles,J.M., Barrero,J.M., Piqueras,P., Ponce,M.R., Micol,J.L., Serrano,R., and Rodriguez,P.L. (2002). The short-chain alcohol dehydrogenase ABA2 catalyzes the conversion of xanthoxin to abscisic aldehyde. Plant Cell 14, 1833-1846.
3. Jander,G., Norris,S.R., Rounsley,S.D., Bush,D.F., Levin,I.M., and Last,R.L. (2002b). Arabidopsis map-based cloning in the post-genome era. Plant Physiology 129, 440-450.
4. Lukowitz,W., Gillmor,C.S., and Scheible,W.R. (2000c). Positional cloning in arabidopsis. Why it feels good to have a genome initiative working for you. Plant Physiology 123, 795-805.
5. Michaels,S.D. and Amasino,R.M. (1998). A robust method for detecting single-nucleotide changes as polymorphic markers by PCR. Plant J. 14, 381-385.
6. Nam,H.G., Giraudat,J., Den Boer,B., Moonan,F., Loos,W., Hauge,B.M., and Goodman,H.M. (1989). Restriction Fragment Length Polymorphism Linkage Map of Arabidopsis thaliana. Plant Cell 1, 699-705.
7. Peters,J.L., Cnudde,F., and Gerats,T. (2003). Forward genetics and map-based cloning approaches. Trends in Plant Science 8, 484-491.
8. Rafalski,A. (2002). Applications of single nucleotide polymorphisms in crop genetics. Curr. Opin. Plant Biol. 5, 94-100.