育种3.0向4.0过渡面临的问题与机遇

图片

译者的话:近一两年来,植物遗传育种领域的大咖们,尤其是该领域的院士们,在谈及作物育种时,似乎言必“育种4.0”。首提“育种4.0”的论文是长达20多页的综述,读完需要一定的功夫。虽然我不赞成“育种4.0”的划分,我主张的是“育种5.0”,育种 1.0 至育种 5.0 正好与系统育种、杂交育种、杂交种育种、转基因育种、设计育种相对应。也许正因如此,我认真阅读了“育种4.0”论文全文多遍。原文的重点不是育种时期的划分,甚至算一笔带过,而重点是论述从现在的育种 3.0 过渡到育种 4.0 所必需关注的问题。

原作者:Jason G. Wallace,Eli Rodgers Melnick & Edward S. Buckler

出版物:Annual Review of Genetics,2018,Vol. 52: 421-444

出版时间:2018年11月成卷出版,2018年10月4日首发预告。

摘要:了解作物数量遗传学,一直是、并将继续是维持和改善全球粮食安全的核心。我们概述了植物育种已经实现或可能很快实现的 4 个时期,一流的育种项目当前处于育种 3.0 时期。在那里,廉价的全基因组数据加上强大的算法,使我们能够开始根据预测的表现型而不是实测的表现型开展育种。从目前的育种 3.0 实践转向育种 4.0,我们重点关注三个必须回答的主要问题:第一,我们如何使作物更好地适应农业环境?第二,育种所依赖的差异性的性质是什么?第三,我们如何应对有害变异?回答这些问题,然后将其转化为农民的实际收益,将是实现 21 世纪全球粮食安全的重要组成部分。

关键词:数量遗传学、育种、农业、适应性、杂种优势、有害等位基因

引  言

未来粮食安全的前景,众所周知:到2050年,地球上将有大约90亿人,到2100年将有90-110亿人(50)(括号内的数字为参考文献序号,下同,译者注)。到2050年,历史上已见的粮食产量线性增长将不足以满足全球的需求(142),尤其是不能满足全球不断增长的中产阶层对优质蛋白不断增长的需求(171)。这一论点与马尔萨斯论一样古老。迄今为止,农业产量增长成功地保持在人口增长的前面,是由于机械化、肥料、植物育种和其他农学技术的进步。然而,仅仅因为过去的产量增长超过了人口增长,就认为未来的产量增长也不可避免地会超过人口增长,这是非常危险的。大部分易耕地已经被开垦,加之土地退化和城市化,其耕地面积实际上正在减少(198)。大多数主要的水源——包括地表水和地下水——都被过度开采,未来几十年水资源短缺可能会加剧(54)。此外,随着气候变化贯穿21世纪,干旱、洪水和破坏性风暴等极端天气事件预计将会增加(17,25,27)。简言之,种植作物越来越困难,但越来越多的人口又要求必须种植越来越多的作物。

植物育种的四个时期

只有1-3%的现代工业化社会直接参与食物生产(187),这一比例比历史社会大幅下降。这种转变很大程度上是管理改良的结果(如犁、播种机、化肥的应用),但也很大程度上归因于育种对作物的遗传改良(37)。尽管一些重要的农业性状如孟德尔著名的豌豆表现型或主要抗病基因位点,是质量遗传,但大多数性状如植株结构、成熟度、营养品质和产量,都是数量遗传。尽管数量遗传学大约只有100年的历史(43,47,188),但它所包含的原理已经在整个植物育种史中都被应用。

根据所涉及的技术,我们将植物育种分为四个主要时期:其中三个时期已经实现,一个可能在不久的将来实现(图1)。这些时期中的每一个都是建立在上一时期的基础之上,将已有技术与新技术相结合,以提高育种效率。

图片

图1  植物育种的四个时期。根据现有方法,育种工作可分为4个现有或将有的时期。育种1.0主要是农民的偶然选择。育种2.0涉及使用统计学和试验设计来提高选择效果。育种3.0包括遗传和基因组数据,是目前的技术水平。育种4.0可能很快就会到来(至少对有些作物如此),其标志是通过全基因组能力将所有已知的等位基因组合成理想组合。

育种1.0始于10000年到12000年前,当时世界各地的人们开发和栽培了约7000种食用植物(81)。虽然没有或少有专业的育种家,但是各地农民开展的表现型选择实际上导致了现代作物的根本性改变。

育种2.0开始于19世纪末和20世纪初,那时发现了自交衰退现象(32),重新发现了孟德尔遗传学(26,34,173),建立了数量遗传学理论(43,188)。这一时期植物育种的许多进展都在育种学的本身,包括田间重复试验、人工杂交、统计分析、正规试验设计、杂交育种、基于系谱的育种值估计、以及(比如用多行联合收割机)大规模精确测产。

在大约30年前,我们进入了育种3.0,该时期分子标记和基因组数据开始补充表现型数据。这一时期开始于标记辅助回交和系谱确认,然后用连锁图解剖复杂性状(91)。高通量基因分型的引进扩展了数量遗传学工具包,用于解剖自然群体的变异(全基因组关联)(147)和基于基因组估计育种值进行选择(基因组选择)(119)。

我们现在正处于育种4.0的面前,这是一个新的育种水平,在这个水平上,功能基因变异体可以比以往更快、更好地合理组合。这一水平的育种是由遗传学和信息系统的重大技术进步推动的。例如,基因组重测序研究现在的成本可以低于一个重复产量试验,基因组编辑有望实现每代对许多(甚至数百个)位点平行、精准地修改,高通量表现型可以以前所未有的时空分辨率测量许多性状,而机器学习方法允许在远远超出人类吸收水平的层次上处理和解释农艺数据。

概  述

在这篇综述中,我们重点讨论了数量遗传学在从育种 3.0 过渡到育种 4.0 时面临的几个主要问题。作物数量遗传学一直在跨越基础科学和应用科学之间的界限,因此毫不奇怪,这些问题在影响植物改良实践和农艺性能的同时,会涉及进化、驯化和发育的基本机制。

如何使作物更好地适应农业环境?

冒着陈述显而易见的风险,作物并没有在农业环境中进化。现代农业将植物置于与它们的祖先截然不同的环境中,伴随着许多以不同方式起作用的选择压(图2)。结果新的等位基因频率提高,并且在玉米(72)、小麦(18)、水稻(59,190)、大豆(100,202)、番茄(84,102)和向日葵(20)等中发现了由此产生的选择性淘汰。重要的是,还没有一种作物达到了其适应性顶峰之巅,特别是因为不断变化的农艺措施在排除这种适应性。找到使作物更接近其顶峰的方法是现代植物育种的终极目标。我们在这里重点关注农业的三个方面:新的大环境、套种竞争和土壤互作,在这些方面,更多的了解可能会在近期有利于育种。

图片

图2  植物适应环境。(a)作物野生祖先进化的环境与(b)现代农业的环境差异很大。所涉及的一些变化得到了相对充分的研究,比如将资源从营养组织重新分配到籽粒和果实。其他的才刚刚开始了解,比如植物如何进化到生活在一个永远受干扰的土壤生态系统中。

新的大环境

大环境是指一组具有相似气候条件(日照时间、降雨量、温度等)的环境。大多数作物起源于局部地区,再由人类传播到世界各地(82)。因此,适应新的大环境是作物自驯化以来所经历的最大变化之一。

然而,寻找这些适应性所涉及的基因的基本问题是,群体结构通常高度混淆着人们想要定位的同一适应性(160)。尽管统计方法可以减少由于背景群体结构造成的假阳性(137),但适应性和结构之间的相关性通常意味着它们也会减少真阳性。这种混淆可以通过分离群体结构和适应性来缓解,也可以通过试验设计或选择自然分离群体来缓解。

在农业中,研究适应性的金标准试验设计通常是多亲本高世代互交(MAGIC)(87)或嵌套关联作图(NAM)(117)设计。这两种方法尽管细节有所不同,但都是通过用少量亲本来产生大量重组后代,从而将适应性与种群结构分开。由此产生的群体具有平衡的结构,并保留了其他受控交配设计的统计能力,使适应性等位基因能够以高置信度被识别。这些分析方法已用于鉴定控制开花期和光周期敏感性(14,73,107,114,155)、耐旱性(96)、耐盐性(150)、耐寒性(152)和发育速率(124)的基因。

另一种方法是利用结构与选择自然脱钩的种群。这种情况通常发生在种群规模较大、生活在几乎没有基因飘逸障碍的环境梯度中的生物。业已证实,使用这些群体进行环境全基因组关联研究非常有用,包括高粱的株高和花序结构(94,122),玉米的光周期、海拔和干旱相关适应性(4),针叶树的气候适应性(195),拟南芥环境条件的宿主(55,93),甚至大西洋鲱鱼的耐盐性(112)。虽然不是每种生物都适合这种分析,但利用这些生物可以识别出适应不同环境条件的基因和等位基因。育种家可以将这些基因作为有关生物改良的目标。

植物间竞争

作物的野生祖先很少(如果有的话)以遗传上的纯合状态存在,即使是传统的地方品种也通常是杂合基因型的混合群体。然而,现代作物通常以遗传一致状态生长,因此大田的综合表现比任何单株都更重要。这给现代品种带来了一种集团选择形式,因此可以通过叶角小、根角小、矮秆、更耐密和类似性状为全田生产优化植株结构(35,37)。

有竞争力的植物必须是在有邻居存在的情况下,善于为自己获取资源。尽管有几位作者已经注意到,在现代农业环境中,竞争力较弱的植物产量更好(例如,35,127,151),但控制竞争力的遗传基因座很少被定位。这可能是因为构成竞争的基本性状(根角、叶角、代谢产物产生)通常本身就很有趣,因此它们通常被定位出来而未考虑竞争(11,16,197)。很少有研究直接定位竞争性,这表明低竞争环境中的有利基因座与高竞争环境中的有利基因座是不同的(90,166,196)。特别是在育种的早期阶段,育种和研究环境都倾向于那些与不同基因型的邻居有强烈竞争力的植株,尽管这些植株在一致状态种植时并不能始终如一地表现最佳产量(41)。将低竞争性的选择整合到大多数育种过程中,需要替代田间方案或(更有可能)计算机建模(203)来确定最佳性状组合,以包括在育种家的选择指数中。

土壤相互作用

土壤不仅仅是作物生长的基质,它可以说是地球上最复杂的生态系统之一(30)。反复耕作使土壤处于永久扰动状态(无论是物理上还是生物上),微生物特征高度改变,肥料、灌溉、作物轮作和其他农艺措施会进一步改变微生物特征(33,57,58,113,128,162,184)。

这种干扰造成了植物进化反应不适应现代农业土壤生态的局面。Nascent研究试图了解微生物关联的遗传学,诸如引入有益根瘤菌(2,29,80,164)和菌根(2,95),建立微生物群落(3,19,174),排除病原体(5118),以及潜在影响食品品质(12)。微生物群落可以改变宿主表现型(132,179),但对其有关的数量遗传学知之甚少。环境(170)和作物相关(40,49,135)的微生物群落的微生物图谱和宏基因组分析,可以为如何利用这些群落进行未来的育种工作打开一扇窗户。然而,应该注意的是,有几种植物的研究表明,环境可能是植物微生物群落的最大驱动因素(77,106,135),尤其是在根际。这意味着调整管理措施或将特定微生物直接应用于种子或植物可能比改善其关系的育种更容易。

育种依赖的差异性的性质是什么?

尽管育种可以像对待黑匣子一样来对待遗传学(在育种1.0和大部分育种2.0就是如此),但了解植物遗传变异的性质可以显著提高育种效果。最好的工具之一是植物自己的基因组,因为它包含了环境适应性的历史。因此,比较同物种内不同基因组,可以得到重要基因座的线索;这种分析在拥有成千上万个基因组的作物中尤其有效(例如,1,15)。

全基因组比较的一个主要结论是,植物变异在很大程度上是由基因含量和拷贝数的变化驱动的,而不仅仅是蛋白质序列的差异。这一假设大约在20年前首次提出(154),这表明基因的存在和缺失可能是重要现象的基础,比如杂种优势(46)。存在-缺失变异解释了大量的表现型变异(22,104,180),尽管许多存在-缺失基因的RNA表达较低(68),甚至被翻译成蛋白质(182)的基因更少。因此,即使许多基因在拷贝数上可能存在变异,但但并不是所有这些变异都是重要的。植物中大多数重要的存在-缺失变异似乎源于多倍体或串联重复,而不是转座子重复等其他机制。

多 倍 体

在所有被子植物中,至少有两个主要的多倍体事件,在大多数谱系中则有更多的多倍体(79,186)。尽管这意味着多倍体是常态,但大多数多倍体事件实际上是进化的死胡同(115),只有少数幸运儿能长期存活下来。

尽管植物很容易发生多倍体,但多倍体的适应性后果仍不完全清楚(108)。一个已知的后果是,许多重复的基因通过突变、缺失或其他机制迅速丢失。这种丢失不是随机的,相反,来自特定区域的同一基因片段(亚基因组)往往保持相对完整,而另一个则优先突变、缺失或以其他方式降解(156)(图3)。例如,玉米和甘蓝型油菜都显示出明显的基因组保留差异(21,145)。面包小麦(Triticum aestivum)就是这一过程的一个例子,因为其等位基因变异的很大一部分源于约1万年前多倍体引起的剂量改变功能丧失突变(88)。亚基因组优势明显建立得非常迅速,基因表达差异和显性表观遗传标记都出现在第一代(39)。

串 联 重 复

基因的串联重复是由于减数分裂过程中的复制错误或不平等的交叉而发生的(143)。由于串联重复的基因通常仍处于其自然调控元件的控制之下,这些重复提供了一种简单的基因剂量修饰机制。例如,玉米中类胡萝卜素降解的变化是由于双加氧酶基因首先转移大约2Mb,然后串联重复多达23次,从而在类胡萝卜素的降解中提供了显著的数量变化(168)。串联重复也与玉米的耐铝性(109)、小麦的耐盐性(200)以及小麦(99)和高粱(125)的矮化有关。

图片

图3  亚基因组优势。多倍体事件发生后,基因组便包含两套完整的基因(A和B,图中间)。随着时间的推移,由于突变和缺失,许多基因减少为单拷贝(红色X)。尽管人们认为这个过程是随机的(图左),但大多数基因组都有证据显示,基因以区段的形式优先保留或优先丢失(图右)。优势亚基因组由优先保留的区段组成(蓝色方框)。请注意,一个区段属于哪个亚基因组,只取决于它被保留的程度,而不是它来自哪里。换言之,一个具有A和B两个基因组的物种由于是多倍体,可以同时具有由A和B片段混合组成的优势亚基因组,而不是A对B有完全优势,或B对A有完全优势。

突变空间大小

考虑到多倍体和串联重复都会导致基因含量的大幅增加(包括种内的显著变异),一种作物的实际突变空间有多大?或者换句话说,有多少不同的突变可以使作物朝着同一目标转变?尽管群体遗传学强调了趋同进化的机会(140),但较早的研究表明,突变的空间可能非常小。例如,许多基因的突变可以产生甜玉米表现型,但四个独立进化中有三个都在单个酶的一个裂缝中(172)。同时,水稻的香气是通过同一基因中的10个独立突变产生的(86),而栽培高粱、水稻和玉米的不落粒表现型都是由于同一同源基因中的独立突变(103)。这些都是最近由人类引起的选择,但自然变异遵循相同的模式。例如,高粱和玉米在约1200万年前分化,在此期间,玉米经历了全基因组重复,目前保留了20-30%的重复基因(156)。尽管有这样的距离,但两个物种的大型作图项目显示出数量性状基因座(QTL)的一致排列,其中高粱中的一个基因座与玉米中的两个同基因QTL匹配(107)。所有这些都表明,在实践中,改变特定表现型的途径数量有限。

原始基因组有多大?被子植物基因组可以在三个数量级上变化(8),从食肉草本植物晚香根的0.061 GB(44)到冠层植物衣笠草的149 GB(136)。乍一看,这些基因组大小的差异似乎对QTL有很大影响,尤其是通过基因调控发挥作用的QTL。例如,在拟南芥(0.125–0.150 GB基因组)中,几乎所有QTL都在受影响基因的5kb范围内(185)。相比之下,玉米中两个特征最好的QTL(~2.6GB基因组)——黄曲霉分枝1和营养-生殖转化1——位于增强子元件中,距离它们影响的基因约60kb(24,153)。然而,尽管重要DNA元素之间的距离在不同的植物基因组中可能会有很大的差异,但重要的实际基因组空间似乎更小、更恒定。例如,近90%的玉米表现型变异可以指定在3%的基因组,即蛋白质编码或非编码开放染色质(149)。这为搜索变异提供了更小的序列空间。同样,只有5-7%的水稻基因组位于可能影响功能的开放染色质区域(199)。如果这种模式适用于其他植物,这意味着功能突变空间可能确实很小。

如何应对有害突变?

人类遗传学家经常关注有害突变,因为有害突变在疾病中起作用,但大多数植物育种家并不怎么多地考虑有害突变。任何明显的有害突变都会很早被消除,很少考虑它们的分子机制或有多少温和的突变是看不见的。尽管拟南芥估计每代积累1个突变(131),但玉米似乎积累了近90个突变(23)。假设5-10%的基因组有功能作用(149),这意味着每代5到9个突变可能会影响表现型,其中大多数可能是有害的。随着我们迈向育种4.0,识别、控制和修复这些突变可能是研究的一个主要方面。

有害等位基因与驯化

当研究人员将驯化物种与其野生亲缘种进行比较时,他们发现驯化往往与明显有害的等位基因数量增加有关。这种模式已经在包括水稻(105,126)、向日葵(144)、番茄(84)、狗(110)和马(159)等在内的动植物中发现。根据群体遗传学理论,有几个过程可以解释有害等位基因的增加。第一,驯化改变了选择压,使野生性状在驯化下变得中性或不受欢迎(74)。第二,在驯化瓶颈之后,纯化选择经常会减少(83)。第三,驯化品种的近交繁殖进一步降低了它们的有效群体大小和有效重组率(105)。尽管每种力量的相对贡献因物种而异,但它们都可能在一定程度上影响驯化作物。新出现的证据表明,这种驯化成本可以通过现代改良实践来降低。例如,现代玉米自交系的无义突变比其野生亲缘系少(22),遗传负荷也比传统异交的地方品种少(193)。玉米中的年幼等位基因通常比其祖先(大刍草)受到更严格的纯化选择(7)。与此同时,在木薯中,与祖先群体相比,驯化基因座在栽培品种中的有害突变更少,尽管漂移增加了植物的总体遗传负荷(141)。

染色体问题

有害变异体的问题是,由于染色体生物学特性的原因,很难把它们剔出来。将基因组装成大型线状染色体,有助于细胞在分裂过程中正确分离完整的基因组,但这种结构限制,因不同(且往往相反)适应值的连锁等位基因,也降低了选择效率。这意味着,任何特定个体都是优良基因与不良等位基因混合连锁在一起的单倍型,而重组的效率往往不足以创造出一个理想组合。相反,多个次优单倍型选择性地相互干扰,因此没有一个能够固定。这种现象被称为希尔-罗伯逊干涉(65),并导致低重组区中有益变异体之间的负连锁不平衡(排斥相)(42)。

希尔-罗伯逊干涉对植物育种具有重要(但经常被忽视)的影响。首先,干扰会降低对任何单个位点的选择效果(65)。这使得轻微有害的变异体积累并降低固定特定有益等位基因的概率,这一过程已在水稻(105)、玉米(148)和向日葵(144)中得到证明。其次,通过消除极端表现型,使有益等位基因分布在多个不重组的单倍型中,从而减少遗传变异,也减少了选择的原材料。第三,假设大多数有害等位基因至少是部分隐性的,干扰最严重的低重组区应该比高重组区更有利于杂合性。

这种益处的产生是因为低重组区有更大的机会与有害等位基因互补。因此,人工近亲繁殖应该有利于在低重组区保持杂合性的个体,正如燕麦(71)和玉米(117)所证实的那样。干扰及其后果最容易在着丝粒周围看到,因为它们太大了,但同样的过程也发生在整个基因组的局部区域。

可以假设,至少有一些具有农艺重要性的QTL位于相似的低重组区,这使得它们的改进极其困难。一项工作是选择在杂交状态下相互补充的单倍型,这就是在玉米和其他杂交育种项目中产生不同异源群体的原因(169)。展望育种4.0,允许育种家通过基因组编辑精确操纵重组位点或改变特定等位基因的技术可以完全绕过希尔-罗伯逊效应。

杂种优势的含义

杂种优势已被认知150多年了(31),但其分子基础仍然存在争议(157)。由于前面提到的互补作用,即使单个等位基因是严格显性的,具有强Hill-Robertson干扰的区段也可能表现为单个超显性基因座一样的行为(98)。这种效应被称为伪超显性。

实验工作证实,至少有一些明显的超显性基因座实际上是伪超显性。一个双亲本玉米家系经几代随机交配后就不再出现超显性现象(48,121),而两个预计显示出强伪超显性的籽粒QTL一致地被定位于着丝粒和近着丝粒(92,158)。表明这一预测需要精细作图的性状,根据定义,这在低重组区很难做到,但偶尔也会得到处理。例如,玉米5号染色体着丝粒附近的单个超显性QTL可以在排斥期分离为两个显性QTL(53)。同时,高粱株高QTL分离成两个具有相反效应的基因,相距约3 Mb(98);这两个等位基因都是显性的,并导致杂交种明显的超显性。

尽管我们关注的是低重组区域,但这些区域中的基因通常相对较少(6,38,75)。因此,即使最明显的遗传负荷是在低重组区,但最全面的负荷也可能在高重组区。在这些区域选择更有效,但与高重组相关联的其他因素可能会阻碍向上运动。最值得注意的是,GC-偏向的基因转化可能会使一些有害突变的频率远高于突变选择漂移平衡下的预期(52,149)。

低重组区段对杂种优势的重要性也可能因物种而异。例如,面包小麦的杂种优势似乎更多地是上位效应起作用,而不是显性效应(78)。水稻(70)、玉米(194)和拟南芥(45)的基因剂量效应似乎显示出显著的杂种优势,表明不同基因的相对数量与显隐关系同样重要。杂种优势在不同的环境中也会发生变化(101),这使得确定杂种优势的一致机制变得更加困难。

为田间提供数量遗传学

了解整个基因组的适应性和有害变异有多重要?这类知识已经被证明在一些特定的途径中是有用的,尤其是对于难以定量和/或定量很贵的性状和由少数基因控制的性状。这些性状包括许多抗病基因座、水稻的耐淹性(189)和玉米的类胡萝卜素含量(56,192)。为了让育种3.0和4.0发挥其全部潜力,我们必须确定如何将这些基本知识转化为现实世界的结果。

Fisher-Orr与育种收益递减

现代作物育种的基本单元是QTL。你对一个品种引入的QTL越有利,这个品种就会变得越好,它的适应性峰值就会越高。第一代QTL定位主要聚焦在大的驯化基因座(如13、85、103、139、165、167、183)和抗病基因座(例如69、111、163、191)。这些努力非常成功,但随着时间的推移,该模式下新出现的QTL通常效应较小,尤其是在异交物种中。QTL效应越小,定位需要的努力越大,产生的效果越小,使得作物育种处于回报递减状态。

有几种现象促成了这种模式。首先,科学家都是理性的,他们首先克隆最大效应的QTL。但另一个主要因素是,大多数QTL效应似乎遵循Fisher-Orr几何模型(129,130)。简言之,这一模型表明:(a)大效应突变更可能是有害的,而不是有益的;(b)复杂性状的选择效率低于简单性状的选择效率。在育种环境中,这意味着有益的大效应等位基因能快速固定,之后只有效应越来越小的隐性等位基因在实际上使植物接近适应性高峰(图4)。此外,复杂性状(如产量)最有利的等位基因首先是效应较小。

图片

图4  Fisher-Orr模型。费雪-奥尔模型指出,越接近适应性峰值的生物,大突变就越有可能有害。蓝色个体离峰值很远,因此许多不同的突变会带来净效益。相比之下,绿色个体足够接近峰值,即使是中度大小的变化也会超过理想值,使其适应度低于以前。

大型制图小组已经证实,大多数等位基因的效应很小(14,116,133,180)。这意味着,特别是在主要作物中,许多大效应QTL可能已经被鉴定出来并固定在优良种质中,使育种家的鉴定工作效果越来越小。这似乎在玉米(14,134)、甚至牛(综述于64)等异交物种中尤其正确。自花授粉物种似乎具有更多的大效应基因,如绿色革命的矮化基因(60)、大麦的开花时间(114)和水稻的耐旱性(178)基因。可能是在异交物种中,每一代单倍型的不断重组都会选择与其他基因“相处得很好”的小效应等位基因。相比之下,自花授粉作物将完整的单倍型传给后代,这可能更容易让大效应等位基因进化。

基因组预测

处理越来越小的QTL的一种方法是不再绘制它们的图谱,而是对整个基因组进行研究。这就是全基因组预测和基因组选择的方法(图5),这是一对非常成功、几乎影响育种各个方面的模式(63)。全基因组预测是利用遗传数据预测个体表现型的过程;基因组选择只是利用这些预测来做出育种决策。这种选择方案由Meuwissen等人首次论证(119)。其目标是通过降低表现型观测成本和缩短早代选择的周期时间两个方面来改进育种。

图片

图5 基因组选择。(a)传统选择包括:杂交获得新的遗传组合,通过表现型测定评估新品种,利用这些评估来选择下一代亲本。(这里没显示品种被应用于生产这一点。)(b)基因组选择为这个方案增加了几个层次,并将这个过程分为训练和选择周期。在训练时,育种家必须环绕整个外环:进行杂交,从中获得基因型和表现型信息,建立数学模型,最后应用该模型来选择未来的亲本。之后,育种家可以跳过训练部分,直接从新材料到基因型,根据模型而不需要表现型选择亲本。尽管该模型每隔几代必须进行一次再训练,但育种家一般通过跳过(费力和费钱的)表现型测定两到三次,可节省大量的时间和金钱。

基因组选择已被证明对奶牛极为有效,有迹象表明它对作物育种也同样有价值(28,63,176)。然而,仍有许多未知因素,如资源的最佳分配或试验设计的选择。例如,Krchov和Bernardo(89)发现,有些育种设计总是在基因组选择情况下更好,有些育种设计总是在表现型选择情况下更好,而许多育种设计可以根据预算、资源分配、性状遗传力和其他因素在二者之间转换。Heffner等人(61)估计,只要性状的遗传力为0.2或更大的情况下,基因组选择单位时间的增益才优于标记辅助选择。与此同时,用于基因组选择的统计模型选择性很多,而且还在不断增加(51),尽管根据真实世界的数据,它们之间似乎没有什么实际差异(62)。杂交种表现的基因组选择也变得越来越强大(76,97),这可能使杂交种的基因组选择成为可能,即使像小麦这样的历史上自交作物也是如此(201)。

基因组选择在改善作物方面有很大的潜力,但是在大多数情况下,这一潜力仍未实现。除了操作简单的主要行植作物和发达国家以外的物种之外,这是最真实的。基因组预测需要高通量基因分型系统和生物信息学专业知识,而许多项目并没有,而一年生作物的育种决策必须在两到三个短暂的窗口期内做出,基因组选择才有价值。基因分型的成本也可能是基因组选择是否值得的主要决定因素(89,146),尽管测序价格仍在下降,这意味着这种情况可能不会持续太久。预测模型也仅限于高度相关的种质;使用不同育种项目的模型几乎没有价值,精度会迅速下降,甚至超过半同胞家系结构(10)。基因组选择需要克服所有这些障碍,才能真正实现全球推广。

普及育种3.0

许多作物育种项目仍处于育种1.0或2.0时期,尤其是在发展中国家,但普及育种3.0让全球人口受益至关重要。这一普及进程已经在进行中,因为廉价的基因分型将以前被忽视的作物带进了21世纪遗传学。小米(9、175、177、181)、木薯(138)、可可(123)、草莓(67、161)、红薯(66)和其他许多作物都从这项技术中受益,但它必须进一步扩大,才能真正实现全球受益。未来几年,DNA测序可能会降至1美元/Gb,这意味着几乎任何纯系都可以用很低的成本进行扫描测序。同时,高通量测序设施可能会将种子基因分型的价格降至每个样本仅1美元或2美元。然而,尽管测序和基因分型的价格正在降至微不足道的水平,但成千上万个样本的田间工作以及追踪和处理的组织工作则不是如此。需要新的创意和信息系统来使小程序能处理这些组织工作。大多数育种家没有时间或技能自己处理数据,理想情况下,育种家甚至不需要查看核苷酸序列。基因组开源育种信息学倡议等项目正在启动这项工作,但需要一个由公共和私营实体组成的更大的国际社会来使全球实现育种3.0。

迈向育种4.0

除了普及育种3.0之外,我们还需要什么才能迈向育种4.0,有能力操纵单个基因甚至单个碱基对?在过去的10年里,通过全基因组关联、进化约束、比较基因组学和一系列分子生物学分析,在识别功能变异体方面取得了巨大进展。然而,对于育种来说,每一种方法都需要仔细衡量其实用性。与人类遗传学不同,作物没有一个核心物种,而是数百个物种,每个物种在全球都有许多不同的育种目标。未来十年的一个主要问题是如何利用这些物种和育种计划的知识,最大限度地利用有限的资源。例如,玉米育种如何从水稻试验中吸取经验,木薯从苹果或棉花育种中吸取什么经验,以及我们在拟南芥中学到的东西有多少可以应用于香蕉、蓝莓、燕麦或马尾松?

育种4.0可能不需要详细了解每个基因的功能。但是,我们必须能够估计每个功能变异体在一系列目标环境中的效应。在实际层面上,我们如何做到这一点?尽管一个物种的基因组中可能有5000万个共同的可变位点,但其中大多数可能并不重要。为了迈入育种4.0,我们需要将海量的变异减少到几万个高概率的功能位点。

哪些类型的数据对此筛选最有用的呢?我们提出以下建议:

1.复杂目标性状的遗传图谱是迄今为止最昂贵但也是识别功能变异最重要的方法。产量等复杂性状很少分解为单个基因,试图将任何特定的QTL分解为单个核苷酸也很少值得付出代价。相反,定位的中心目标应该是将一些关键QTL解析到基因水平,以突出以前没有考虑过的途径和过程。然而,全基因组关联研究和遗传图谱的最大价值很可能是它们产生的基因型和表现型数据集。这些可以用于对其他方法进行基准测试,特别是在多种环境的情况下,并可以集成到正在进行的育种工作中。

2.基因组注释是将我们对基因组的分子理解提炼为机器可处理数据的过程。它包括对蛋白质结构范畴、基因本体、甲基化模式、染色质状态、转录因子结合位点、表达水平和许多其他方面的注释。尽管所有这些测量可能在生物学上都很有趣,但它们之间有很强的相关性,而且许多都可以相互预测。这需要严格地确定每个注释的成本效益,以确保最好地利用有限的资源。

3.中间表现型(例如RNA转录物或代谢物)的图谱比末端表现型(如产量)的图谱提供了更高的分辨率,并经常识别到所涉及的确切基因甚至特定的因果变异。染色质图谱和蛋白质组学等有关方法可以显著提高我们识别功能变异体的能力。关键的挑战是使这些技术足够便宜,从而可以在一系列基因型和环境中对作物进行分析。

4.进化是最终的产量试验,因为它聚集了数百万年来各种基因型的成功。目前方法的最大局限性是,对遥远的进化物种进行测序只提供了最保守元素的信息。为了充分了解监管保护,需要饱和的近缘种。尽管作物生长在它们没有进化的环境中,但仔细选择地方种或野生种(而不是优系)可能仍然能够解决这些问题。

这些方法中的每一种都可以丰富功能变异体,但不能肯定地确定它们。然而,这些方法的智能集成可以高性价比地提供整套的高置信度变异体。这种整合需要对全球种质资源进行遗传学和表现型特征化,开发信息学工具来共享这些信息,并使用适当的方法(如机器学习或类似方法)来整合这些不同的数据集。

育种4.0的最后一个关键点是大规模(每个世代数十到数百个位点)的基因组编辑。直接的基因组编辑几乎肯定会取代杂交,成为将遗传变异优化为最佳组合的最有效方式。更好的是,它可以做到没有拖累了前几十年育种的连锁累赘。当然,这种经过编辑的作物可能需要克服消费者对工程食品的抵制,但这是与全球食物安全完全不同的一个方面。

育种一直都是一场数字游戏,所以我们不需要100%准确地识别每一种变异体。即使我们有时只有10%是正确的,也可能足以比其他情况下更快、更具成本效益地推动作物育种。世界各地的许多实验室已经在寻找这些变异体。将所有这些工作纳入育种流程将是在整个21世纪为全球提供充足、营养和可持续的粮食供应的关键。

要点总结

1. 根据现有技术,育种可分为4个时期;我们目前正处在育种3.0时期。

2. 为了达到育种4.0,我们需要确定导致作物理想变异的有关等位基因。

3. 作物仍然只是部分适应农业,但可以通过育种来改善,以更好地适应现代的生长环境。

4. 与农业相关的变异不会在基因组中随机分布,因此找到相关部分可以改进育种工作的重点。

5. 育种4.0的大部分内容可能是识别和消除有害变异。

6. 需要做出更多努力,使当前和未来的育种技术普及化,使其惠及全球农业。

该文观点仅代表作者本人,不代表农更行立场,如有任何疑问,请联系editor@179c.com。