数据、算法、算力:数字育种产业化拐点将至
“培育出高产、优质、抗性强的作物品种,这是所有育种家的梦想,如果你手里有300份材料,该怎么通过数字化手段去实现它?”
首届数字种业论坛上,天丰智慧技术总监邢鸿雁博士的这一提问,引发了在场听众的深思……
就传统育种而言,选育动植物新品种过程十分漫长。一个植物新品种一般需要8-10年,畜禽新品种甚至要花费数十年乃至上百年。部分育种家努力钻研半生,最终也没有出来一个大品种。又或者,新品种选育出来便已被瞬息万变的市场淘汰,倾注其中的心血不免令人惋惜。
众所周知,种质资源是育种的基础,育种家第一步要做的便是“淘金”。截至2022年底,我国长期保存的农作物种质资源数量已达53.9万份。保存数量虽位居世界第二,但作物种质资源利用率仅为3.0%~5.0%,有效利用率仅为2.5%~3.0%。
种质资源的收集、保存、鉴定,所耗人力、时间和财力成本巨大,育种家要深入田间地头做种植材料的鉴定十分困难,尽管他们乐此不疲。
有人将传统育种比喻为“选美”,育种的最终结果全靠育种家的眼睛,即便是在大数据、人工智能火爆的当下,育种家的经验仍旧不可取代。
可是,面对一座如此庞大、尚待开发的种质资源大山,单靠育种家的一步一履,或难登顶。
近年来,“BT+DT”成为了全球育种行业最热门的词汇。目前,国外种业已进入“常规育种+生物技术+信息化”的育种“4.0时代”,而我国仍处在以杂交选育、分子育种为主的“2.0-3.0时代”。
以拜耳、科迪华为代表的国际种业巨头,利用人工智能、机器学习等技术,结合海量基因组、表型和环境数据的分析,进行种子的选择、优化,已纷纷构建起成熟的数字化育种体系。
2020年,拜耳在美国亚利桑那州的马拉纳开设自动化温室,作为其新的全球玉米产品设计中心,可整合端到端的数字化育种过程,加速其玉米新品种迭代进程。
在种业企业全面拥抱数字技术的同时,国际互联网巨头也在积极布局育种赛道。
去年,谷歌的母公司Alphabet公开推出“Mineral”,该项目筹划已久,自2014年来平均每天可以采集到190000个农田数据点。利用这些数据,Mineral 开发了80个高性能机器学习模型,帮助企业、农民、研究人员和育种家预测作物产量、增加产量、防治害虫和杂草。
Google Ventures合伙人Andy Wheeler曾表示,“数据将是推动下一波农业生产率提高的工具。”
再看国内,数字技术在交通、消费、物联网等领域已发展得十分成熟。近些年,阿里、腾讯、京东等互联网巨头在农业赛道频频落子。可以说,国内要发展数字育种,既是大势所趋,也是恰逢其时。
回到开篇的提问,数字化育种究竟该如何从展望走向落地,从经验复制走向自主研发,乃至成熟的产业化应用呢?最近,35斗参加了首届数字种业论坛,从数十位专家学者的报告和访谈中,我们总结出了一些可行的方向和答案:
追赶:把握数字化机遇,为育种插上隐形翅膀
跨界:多元人才涌入,跑好数字革命的接力棒
降维:减少算法和模型内卷,卷应用赢面更大
联合:细致分工与一体化链接,重塑行业生态
标准:直面育种数据爆炸,回归育种本质逻辑
追赶:把握数字化机遇,为育种插上隐形翅膀
发展数字育种契合当前我国农业政策和发展战略,这是一个非常好的机会。
拥有40余年育种经验的前亚太种子协会(APSA)主席、前先正达中国政府事务总监张孟玉表示,我国的数字技术在农业以外的其他行业发展迅速并逐步成熟,如无人机、无人交通、物联网、区块链应用、供应链管理等。但在数字农业和数字种业方面,刚刚起步,十分滞后。
在有限的应用中,设施农业又占据了大头。水肥一体化、温度光源控制、云平台管理等领域常常可见数字化身影。目前,信息技术在以跨国企业为代表的种业企业逐步得到使用,于中国种业而言,抓住数字化机遇,任重而只争朝夕。
对此,中国农业大学郭伟龙副教授也提出了一个很有趣的思考:我们常说基因组学已经有很多数据,为什么还要数字化?数字化究竟是什么含义?
哪怕是数据库也会有好几个层次,数据化和数字化有着迥异的差距。
通过测序技术采集并获取大量基因组信息,这个只是数据化的过程。我们真正要做的是数字化,基于海量基因型、表型和环境组学数据,利用算法、模型形成的育种知识库,对于指导实践可能更有价值、效率。
种业4.0是一个以数字化为基础的创新时代。
华大制造李勇副研究员认为,西方国家之所以发展起成熟的育种体系,恰恰是其数字积累起来的领先优势。如果传统的种业无法和西方竞争,那么分子育种和数字育种将是赶超的绝佳机会。我国种质资源丰富,在研发力量上也逐渐出现了从政府、科研机构到企业的转变,这是一个良好的信号。
也许,大数据早已在数字经济的舞台上大展拳脚、屡创佳绩。如今涉足育种领域,它的神秘面纱正在一点一点揭开,蓄势待发。
跨界:多元人才涌入,跑好数字革命的接力棒
育种家的战场,不止于实验室,也在田野,更在云端。
数字化育种时代,不仅需要遗传学、分子生物学、生物信息学等领域的“BT”人才,还迫切需要数据科学、人工智能、物联网、自动化控制、统计学等相关背景的“DT”人才共同参与。
拜耳作物科学的王林博士提到,种子的产出潜力很关键,要能适应不同农民、农场的种植环境。育种不仅仅局限于基因组方面的研发,也需要涉及种子“周边”,如杀虫、除草、种子管理等。因此,拜耳的育种研发始终是围绕着客户最终的需求来规划。
西南民族大学青藏高原研究院的王嘉博副研究员,其博士研究背景是软件开发和算法,如今却在藏区的牦牛基因组选育工作上干劲十足。
在被问到如何与老一辈育种家合作,推动种业数字化转型时,他提到:我父亲从事大豆的传统育种已有30年,也持续做出了自己的成果。当我和他讨论现代的分子技术、数字技术时,父亲表示“实践是最好的答案”。
新技术的出现肯定会带来革命。一代人比一代人要强,技术发展也会一代比一代更先进。只有深入田间地头,用数字技术真正地推动种业进步,才能让老一辈的人相信:这杆枪交给我们可以放心。
中国农科院作物所的张学勇研究员也在接受访谈时表示:这次参会最强烈的感受,就是希望在青年身上。对我们这一辈的育种家来说,田间的数据、实验室的数据有很多,但是缺乏海量数据的有机整合。而国际上的种业竞争,其实就是国家种质资源的智能化竞争。
或许,当新一代育种家接过这份沉重的“接力棒”时,“弯道超车”或能更快实现。
降维:减少算法和模型内卷,卷应用赢面更大
在过去的一年里,以Chat GPT的火爆为标志,诸如通义千问、文心一言、PaLM 2等生成式人工智能领域的大语言模型纷纷涌现。百度创始人李彦宏曾公开表示:模型本身并不直接产生价值,基于基础大模型开发出来的应用才是模型存在的意义。
郭伟龙副教授认为,人工智能技术从计算机领域来讲已经很成熟,方法已经卷到了一定程度,现在不再卷模型,而是卷应用。邢鸿雁博士也提到,对于数字育种来说,不用去卷算法,哪个好用就用哪个。
天丰智慧CEO张洪也强调,种业科技方面我国的发期刊数量处于绝对领先优势,但从科学到技术已经出现断层,从技术到工程化实现还有很长的路要走。
构建育种大模型可以帮助预测和找到优势的基因,大幅提升育种效率。但是,“有用”一定是决定算法、模型选择的关键因素。
以大豆为例,“中央一号文件”连续4年聚焦大豆扩种。中国农科院作物所的李英慧研究员表示,利用基因组、转录组、常规表型等多组学技术的联合分析,团队成功发掘了300多个与产量、抗病虫等相关的基因。
然而,解锁大豆耐密植基因只是第一步,团队更希望的是,让这些基因能够被育种家切实利用,回应大豆高度依赖进口的国情。
正如慧诺瑞德创始人韩志国所言,表型技术可以实现高通量、自动化获取和产量、品质、抗性相关的信息数据,看上去非常高大上,脱去华丽的外衣就是光谱检测技术。我们思考的是:能否为产业做一点事?
从这个角度来看,无论是极智生物的高通量基因测序平台,还是天丰智慧的GS预测育种,抑或是慧诺瑞德的高通量表型鉴定,让技术更加落地、平台更加实用,或许才是千千万万个数字化育种人员的终极梦想。
联合:专业分工与一体化链接,重塑行业生态
在这场数字化革命中,传统种企或许才是感触最深的。
去年,来自红船启航地的浙江大禾种业董事长朱娟,毅然决然地加入了数字种业联盟,拥抱数字化育种,寻求企业转型。
朱娟认为,在数字化育种中,传统种企更多关注“效率”,如何精准地能够为种业企业和农民的增收增效服务,这是企业最关注的点。数字种业联盟的成立,有望实现种业企业、科研单位从点到线的有机链接,对于加速传统种企业加速品种迭代会起到至关重要的推动作用。
中国农科院作科所/国家南繁研究院张学才研究员对此的思考是:提高育种过程的效率,而不仅仅是单一技术的效率。要解决好种质、算法和育种实践的结合问题,从种到收、从选品种到测序,每个过程、环节都需要数字化赋能。
李勇研究员也表示,数字育种的价值链很长,而行业的专业化服务远远不够,这也是我们强调的数字化联盟的重要性所在。
合肥智能育种加速器大科学装置(海霸设施)首席科学家吴丽芳强调,通过平台将各环节的数据、技术和设备进行整合,为育种家提供便利是大科学装置的创立初衷。
我们不需要做重复的工作,要充分利用各方资源,合作共赢。未来,在种质创新、新基因快速挖掘、知识产权保护、核心种质资源数据共享等方面,大家有很多合作空间。
在国家种业振兴大背景下,如何将行业内好的育种技术真正落地,做到产业化应用非常关键。
极智基因创始人焦成智表示,单打独斗非常难,通过组建联盟,把各方先进的育种技术进行整合,真正赋能下游的新品种培育、种质的创新,甚至未来农业食品加工等一系列的产业应用。
标准:直面育种数据爆炸,回归育种本质逻辑
当前,全球正处于“数据爆炸”时代。
2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%,位居世界第二。其中,农业数据的增量更是达到了50%至80%的水平。在环境气候、基因组测序、作物生长指标、地方统计等方面,种业从来不差数据。
在会议现场,张学才提出了一个有趣的观点:“数据并不是越多越好”。
他提到,测序数据越多越好,标记数量则不一定越多越好,算法也不一定越高级越好。对育种的人来讲,数据库能否承受存储和计算的压力,让人觉得你不是在玩数据,你是来实践做育种,这才是最重要的。
每天都有源源不断的数据产生,在某些方面,也给育种家造成了困扰。
韩志国表示,大家在做表型采集时常常有不同的命名方式,这给大数据处理增加了难度。同时,不同的表型平台的信息化难以打通,很重要的一点在于表型的数据实在太大。
我们也一直在寻找表型数据领域更简化的指标,从而助力育种和关键的种植流程决策连接起来,这个或许会成为产业化落地应用的关键点。
张学才强调,育种是一个庞杂的过程,其中牵扯到标准化和系统化问题。包括命名格式的统一、流程的优化、顶层设计的完善,都需要遵循科学性原则。当每一粒种子有了清晰的ID,包括来源、年份、名称等;当每家育种信息系统的底层框架达成一致,数字育种才能真正成型。
到那时,再复杂的数据输入和输出也会变得简单、高效。
写在最后
作物育种犹如建房子,正在由“建平房时代”进入“建高楼时代”。虽然平房和高楼其房间的功能变化不大,但其建设的流程和工艺已有天壤之别。
未来的育种,将是“设计育种”,需要有科学的规划,优良的设计,精细的施工,完善的监理,严密的检测,出色的管理,高效的协作,缺一不可。
这两段话由我国著名水稻育种家刘定富老师所说。今天,它也出现在了由极智生物、天丰智慧、慧诺瑞德三家企业共同发起的数字种业联盟的规划书上。这些文字正是关于联盟成立初衷、所追求事业最为形象与深刻的说明。
未来,在联盟的助力下,我们也期望一代又一代育种家的终极梦想能从纸面跃至现实。