种业上云,育种4.0时代的黑科技怎么玩?

全球爆红的ChatGPT,颠覆了人们对于人工智能价值的认知。很多行业开始重新思考创新路径,力争在人工智能的科技浪潮中捕捉业务创新的机会。

在被视为农业“芯片”的育种行业,已经进入了以“生物技术+信息技术+人工智能+大数据技术”为基础的种业4.0阶段,生物育种叠加人工智能和信息技术的助力,有望让我国种业实现弯道超车,解决卡脖子问题,打赢种业翻身仗。

本文采访了运用到云计算服务的智慧育种企业及提供云服务的公司,一窥在主打智能的育种4.0时代,人工智能等技术如何助力育种创新,云计算在其中发挥的作用及应用场景。

生物育种如何借助人工智能技术实现创新?

生物育种可以看做一个复杂的数字选择游戏,把海量种质资源和品种进行分析,并从中挑选优势性状基因,培育下一代。而生物多样性与复杂性兼备,其包含的基因组与表型性状信息数据量惊人。

就基因组数据而言,水稻约有5.6万个基因,玉米约有6万个基因,小麦约有12万个基因。这些数以万计的基因在不同的生长环境下,表现出的株型、穗型、穗粒数等表型性状千差万别,表型性状数据更加多样和复杂。

而在育种4.0时代,随着生物技术与大数据、人工智能等数字技术的深度融合,所采集的数据量将爆发性增长。

慧诺瑞德创始人韩志国告诉35斗,“从育种3.0时代到育种4.0时代,基因组学数据量会有轻微增长,但表型组学数据一定是指数级的增长。”

在人工智能技术的加持下,可以利用图像识别模型进行表型数据采集,通过无人机拍照,人工智能快速识别把图片转为表型性状数据,相较于以前的人工采集效率大幅度提升。

慧诺瑞德针对田间和温室的高通量、高精度、自动化测量需求,基于”Sensor-to-Plant”理念,自主开发了轨道式高通量植物表型平台TraitDiscover,实现了多源、多维、多谱数据的自动采集、存储和分析,实现了形态结构、生理功能和组分含量三大类表型性状的获取,并得到了成功应用。

在建立全基因组选择模型的环节,则是把基因型数据和表型数据结合分析,预测未来成熟期表现,二者累积的数据更加复杂多样。且进行材料表型数据分析,并挑选品种进入育种下一流程,决策窗口期较短。

百奥云创始人王冰冰向35斗强调,智能育种的核心就在于:结合大数据和人工智能技术,实现基因型—表型精准解析,找到基因与性状之间的关联,以更加精准地进行培育,在品种田间种植之前即可预测其表现,从而节约田间测试成本,缩短育种周期,提升育种成功率。

借助丰富的云上资源,为育种提供一站式服务

作为发展现代农业、解决农业安全问题的重要支撑,生物育种已经被列入我国科技发展的重大战略方向之一。

人工智能、云计算等在生物育种领域的应用,不局限于存储、计算和分析庞大复杂的数据,很多云计算公司已经将服务链条不断延伸,为育种提供一站式加速服务。

宁夏西云数据科技有限公司(以下简称“西云数据”)是专业的云计算服务提供商,专注于亚马逊云科技中国(宁夏)区域的运营,以卓越运营管理经验为中国客户提供国际先进的、安全、灵活、可靠的云计算服务,推动本土企业数字化转型和创新。

秉承这样的企业运营理念,西云数据作为农业行业的“新农人”,站在云计算从业者的角度,坚守在应用层面与企业和行业从业者广泛合作,建立育种行业端到端的生态合作伙伴体系,为农业数字化转型搭建云计算的数字底座。

西云数据在数字种业板块的实践,已经涵盖了育-繁-推全流程。

“育”的环节,包含了大规模基因数据存储、查询、分析、蛋白结构预测以及人工智能育种。

西云数据借助亚马逊云科技的多种服务,例如Amazon Batch、Amazon Serverless等服务搭建的架构托管GATK/BWA/FQTtools,支持数据分析流程计算,也可通过专门构建的开箱即用的Amazon Omics服务,Amazon Omics 提供可扩展的工作流和集成工具,用于准备和分析组学数据,并自动配置和扩展底层云基础架构。基于Amazon Batch的云上高可用蛋白结构预测平台可支持AlphaFold、RoseTTAFold、OpenFold等六种预测模型,运行效率高,可快速给出预测结果。

利用Amazon SageMaker可加速用户进行深度学习模型的研发和应用,加速性状改良、新品研发等进程。AI育种,则是利用基因型、表型、气候、土壤等数据,构建AI预测算法加速气候友好型、病虫抗性等优质品种的研发。

“繁”的环节,针对田间表型,利用Sentinel-2、L8等卫星数据和无人机监测数据,结合光谱分析算法、图像识别技术等对育种田、制种田进行作物生理指标的分析、提取。

“推”的环节,西云数据拥有深入合作的生态合作伙伴,打造基于种子溯源系统,记录种子从生产、加工、包装、质检、运输到销售等环节信息,实现来源可查、去向可追、责任可究。

亚马逊云科技在国际上也有很多赋能育种全流程的案例。

拜耳应用现代基因组和数据科学方法来提升粮食生产效率,过程中经常产生大量原始数据,须进行快速且经济高效地处理,其中自动化分析管道,也称之为工作流,对于实现这一目标至关重要。为了抽象和简化该架构,并使科学家能够轻松构建自己的分析工作流程,亚马逊云科技开发了BayerCLAW,也称为云自动化工作流程,可自动创建所有架构组件和实现细节,提高效率。

联盟CRISPR-IL是针对临床医学和农业基因组编辑,建立一流基因编辑预测的平台。其工作主要围绕CRISPR编辑的有效性和特异性,包括“编辑事件”的预测、开发新的酶、递送系统、高通量应用等,同样借助了云服务来加速开发基因编辑预测引擎。

借助亚马逊云科技提供的丰富服务能帮助企业快速构建一个强大且可扩展的计算框架,以满足多个利益相关者的不同需求:跨多个组织和机构的ML研究人员、临床研究人员、计算生物学家和植物育种者。亚马逊云科技还可以帮助联盟无缝扩展并将开发与生产环境分开,能够在不中断实验工作的情况下进一步开发系统,从开发到生产持续部署服务,监控服务和用户活动,控制不同组件的运行成本,并安全高效地完成所有操作。

算力强、弹性可扩张、存储安全,助力智能育种降本增效

为了处理智能育种过程中产生海量信息,并便于后期的数据分析和使用,育种实验室需要具备对海量、复杂数据的存储能力、高效分析能力和科学管理能力。

全基因测序分析往往需要进行序列过滤、序列比对、统计检验、数据库匹配等大量计算才能得出检测结果。百奥云创始人王冰冰指出,一台电脑分析一个基因组需要半天时间,如果有成千上万的基因组要在几天的窗口时间内完成分析,公司不可能常备大量的电脑来解决突然而来的大量计算需求。

对于业内很多育种相关公司而言,在本地大规模部署服务器成本高、效率低,存储、计算、分析耗时,不一定能达到预期效果。

亚马逊云科技目前提供超过200项全功能服务,涵盖计算、存储、网络、数据库、数据分析、机器学习与人工智能、物联网以及应用开发、部署与管理等方面;从初创公司、中小企业,到大型企业通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

西云数据目前服务的客户中也有面临本地计算资源不足、扩充本地服务器运营成本高、项目交付周期紧张的问题。由此,西云数据帮助客户基于无服务器技术托管基因测序数据分析流,基于云上资源实现弹性扩容、减少运维以及简化规范业务流,将项目交付效率提升40%。在降低客户IT运营成本的同时,为数据量不稳定、可能存在高并发的业务模式提供了实践经验。

除了降本增效,敏捷性与弹性,王冰冰认为,云计算服务大量客户积累了丰富的云安全经验,安全与合规是上云与用云的基石,未来会有更多种业公司选择云服务实现业务尝试与创新。

写在最后

农业农村部发布的《2020年推进现代种业发展工作要点》指出,加快数字种业建设,构建全国统一的种业大数据平台。

2022年8月,农业农村部又发文指出,将强化种质资源收集保护和精准鉴定,加快推进基因编辑、信息技术、人工智能等新技术手段在育种方面的应用,推动从“经验育种”向“精准育种”“智能育种”转变。

政策支持,人工智能、大数据等技术赋能,未来生物育种产生的数据量将持续增长,育种产业链上将会有更多的公司需要借助云计算服务,现阶段很多互联网大厂的云计算服务已经在育种领域开始布局,市场前景可观。

借助AI大模型刷新创新路径,已经有了足够的想象空间。发展过程中更需要西云数据这样的公司,既能应用国际化的云计算能力和理念,又了解中国本土农业发展情况,二者结合进行创新实践,为育种加速,解决种业卡脖子问题。

 

本文来自微信公众号:35斗(ID:vcearth),作者:胡小凤

该文观点仅代表作者本人,不代表农更行立场,如有任何疑问,请联系editor@179c.com。