我国甜樱桃产业知识图谱构建研究
近年来,随着我国甜樱桃产业的迅猛发展和规模的不断扩大,其产业数据构成了一个巨大的“数据仓库”。各种知识错综复杂,存在“数据孤岛”,知识之间缺乏有效的组织和语义关联,难以提供相应的产业服务。本文从数据层、知识抽取层、本体构建、知识融合层、展示应用层5个方面进行设计,面向我国甜樱桃全产业链提出了构建知识图谱的思路。基于知识图谱,深度融合和挖掘甜樱桃产业的相关数据,使其从快速检索、科学决策、产业指导等方面为甜樱桃产业的发展提供知识服务,助力我国甜樱桃产业的创新与发展,提高竞争力。
背景及意义
随着我国甜樱桃产业规模的不断扩大,电商及直播带货销售方式的兴起,产业数据井喷式增长,形成海量数据;各果农分散经营为主,产业链各生产环节相对独立,导致产业数据形成“数据孤岛”;数据来源不一,有网页中的,也有相关部门统计的,导致对应的数据结构也不尽相同。因此,要想将产业数据充分利用起来,需将整个产业的各类数据进行汇总收集,打通各数据之间的壁垒,真正实现数据间的互联互通,对甜樱桃产业的有关问题进行针对性解答,以提高我国甜樱桃产业的竞争力,促进其实现高质量发展。
知识图谱作为新兴的知识表示方式,具有强大的语义表达能力,可以从海量的多源异构数据中抽取产业相关知识并进行融合整理,最终形成一个丰富的语义网络,是目前解决我国甜樱桃产业数据杂乱、知识表示不清的有效手段。因此,对甜樱桃产业知识图谱的构建进行研究,不仅能够对甜樱桃产业整体有一个宏观的了解和把控,也为以后的数据分析打下坚实的基础,为甜樱桃产业的发展提供相应的指导,具有重要的理论和现实意义。
知识图谱发展现状
知识图谱本质上是一个语义网,通过各种方式将散落在生产活动中或者是网页上的各种类型数据进行收集,形成一个网状的知识库。在知识图谱中,节点代表实体,条边代表连接两个实体之间的关系。这种网络结构,能够对查询做出更为灵敏准确的反应,整个产业结构及相关的信息一目了然,同时也方便下游应用的开发。
作为农业信息化领域中的热点问题,基于知识图谱的农业知识服务深受研究人员的关注和重视。夏迎春以中国农业科学院发布的作物病虫害数据库数据和爬虫抓取到的有效数据构建了病虫害知识图谱,并设计实现了病虫害知识问答系统。于婷婷从不同数据类型的方面对农作物知识图谱的构建进行了阐述,并进行了查询展示。2021年后,农业知识图谱的研究愈发广泛,研究者们分别在水稻病虫害、茶叶、智慧农业等领域进行了自动问答系统的研究,使得知识图谱的应用更加深入。朱越在基于小麦病虫害知识图谱的基础上进行了推荐系统的研究,对用户兴趣进行建模,并在构建的小麦病虫害知识数据集中进行试验,证明了其优越性。知识图谱在果树上的应用也是屡见不鲜。张华鹏以爬虫和专业书籍中的知识进行苹果病虫害知识图谱的构建,并以此为基础设计实现了施药辅助决策功能,提高了施药准确率。张嘉宇等对苹果病虫害的实体和关系种类进行细粒度定义,并构建了苹果病虫害数据集,以此构建细粒度苹果病虫害知识图谱,并提供智能辅助诊断等下游任务。闫丽华面向葡萄病虫害构建了知识图谱,并在此基础上通过卷积神经网络(CNN)理解问句意图,完成自动问答系统的设计与实现。
通过分析现有研究成果发现,绝大多数农业知识图谱的构建是基于产业链中某一个环节(大部分是病虫害环节),并以此为基础进行应用,很少有针对全产业链构建知识图谱的研究。这样的研究方式更容易深入该环节,但要想对整个产业进行全面深入了解和产业指导,需面向全产业链进行构建。我国针对甜樱桃的知识图谱构建研究极其匮乏,亟需全面开展相关研究。笔者结合我国甜樱桃产业发展现状,着眼于甜樱桃全产业链知识图谱体系架构搭建,并对甜樱桃产业知识图谱应用场景进行分析,为今后进一步深入开展相关研究奠定基础。
甜樱桃知识图谱构建
甜樱桃产业知识图谱构建需要面向全产业链,专业性较强,且产业数据相对分散,应采用自上而下和自下而上相结合的方式进行构建。在模式层通过行业通识、专家经验等先确定一部分模式信息,再进行数据采集;在数据层对果农、品种、买家等信息进行大量采集,通过模式提取来扩充之前的模式库,进而使知识图谱不断完善。
构建甜樱桃产业知识图谱要以甜樱桃产业链数据作基础,通过将分散在各处的数据进行汇聚形成知识库,并对知识库进行数据挖掘和分析,能够发现甜樱桃产业数据之间的关联信息,并对甜樱桃的种植、管理等进行科学决策辅助、快速检索和产业指导。甜樱桃产业的知识图谱架构如图1所示,整个架构分为4层:数据层、知识抽取层、知识融合层和展示应用层。将不同的数据进行收集,根据行业专家经验对部分种子数据进行知识结构分析、概念类别定义,设计好部分实体关系,然后将收集到的多源数据进行关系抽取,把收集到的数据抽象为三元组的形式,作为甜樱桃产业的知识单元,然后通过知识融合层中的各项技术,将三元组进行融合得到甜樱桃产业的知识库,把数据导入到图数据库软件中,最终形成我国甜樱桃产业的知识图谱。
数据层
要想构建甜樱桃产业的知识图谱,获取相关的产业数据是最基础的。结合对甜樱桃产业的现状和具体分析,可以将相关数据分为以下三大类:产前数据、产中数据和产后数据。其中产前数据包括育种数据、园地规划数据等,产中数据包括建园数据、土壤数据、肥料数据、整形修剪、花果管理、病虫害防治数据、采收数据等,产后数据包括采后处理、贮藏加工、销售数据等。从数据类型上看,甜樱桃产业的数据类型横跨了结构化数据、半结构化数据和非结构化数据,因此在知识抽取层要针对不同的数据采用不一样的抽取方法。
知识抽取层
知识抽取作为知识图谱构建过程中的关键,是将来自多个数据源的相关信息进行抽取,从而得到形式化的知识单——三元组。知识抽取主要分为三部分:实体抽取、关系抽取和属性抽取,其中属性作为和实体的一种关系,可简化为实体抽取和关系抽取两部分。
基于甜樱桃产业的数据类型特点,对于结构化数据,将采用D2R映射的方式来转化成三元组的形式;对于半结构化数据,使用包装器归纳的方式进行转化,其原理是借助有监督学习,让包装器自动学习数据抽取规则,再用于其他网页模板抽取目标数据,在抽取过程中,将这两类数据抽取的结果自动加入种子集中;对于非结构化数据(网页中的纯文本数据),基于深度学习的抽取方法近年来成为人们研究的热点,其中的流水线方法和联合抽取方法更是将实体抽取和关系抽取两部分集中到一个神经网络模型中,并取得非常好的效果。针对甜樱桃产业的非结构化数据,采用基于卷积神经网络(CNN)的流水线方法,此方法在CNN中加入了自注意力机制,使得模型能够得到词序列之间的关系,获得更加丰富的词向量信息。
通过以上方式将收集到的各种类型的数据进行知识抽取,得到三元组,接下来将这些三元组输入到知识融合层,将各个分散的三元组进行融合,从而得到甜樱桃产业的网状知识库。
本体构建
本体构建作为模式层最为重要的一个步骤,承担了确定数据采集任务和知识图谱雏形的任务。本体构建是对得到的一系列知识进行形式化的描述,从而明确实体之间的关系的过程。基于甜樱桃产业的本体构建,由于其涉及的专业知识较深,且专业内涉及面较广,因此本文未采用时下主流的数据驱动的方式,而是经由行业专家讨论进行概念类别定义、标识属性选择,最终设计好实体之间的关系得出了甜樱桃产业的类目结构(图2),并通过人工编辑的方式进行本体构建,虽然这种方式工作量巨大,会花费较多的人力,但是其专业程度非常高,知识图谱构建起来之后能够发挥更大的价值。
知识融合层
由于经过知识抽取得到的三元组都是独立且分散的,可能其中有些三元组是重复的,又或者其中同一个实体名称可能并不能指向同一个现实实体,而且存在三元组之间的关联情况并不明确的情况,为了解决以上问题,整理这些三元组,将进行知识融合。
知识融合主要包含实体消歧、实体链接两个关键技术。实体消歧是对不同三元组中的同名实体的真实提及作出准确判断的过程,这一过程对保障知识图谱的质量,提高下游应用中的快速检索质量有着重要意义。在知识抽取得到的三元组中,往往存在不同的实体名称指向同一个实体的情况,也存在某个实体对应多个实体名称的情况。结合甜樱桃产业的数据特点,本文将基于知识抽取部分得到的种子集,采用一种基于无监督的关系聚类算法,该算法的原理是运用语义特征表示指称项,同时利用余弦相似度来表示两个指称项的相似程度。
实体链接则是将数据收集过程中出现的模糊名称映射到正确的给定知识库中的命名实体上去,其核心思想就是将文本中提到的实体分配一个唯一标识。同时也扩展了知识图谱中各个命名实体之间的关联性,使知识图谱具有更加丰富的语义信息。通过知识抽取得到的三元组中,可能存在某些实体名称模棱两可的情况,很难确定该名称到底是指向哪一个命名实体。针对这种情况并结合三元组种子集,本文将采用基于词典匹配的方法来完成这一任务,该方法的原理是根据种子集构建命名实体词典,每收集到一个实体名称,对词典进行模糊匹配,根据基于字符串相似度算法,若两者具有很高的相似度,则匹配成功,否则,匹配失败。
展示应用层
经过知识抽取、知识融合这两步,已经得到了甜樱桃产业的知识库,其中有关品种的属性结构如图3所示,那么如何将该知识库更具体形象地展示出来成为下一步的关键。本文对比了现有的几个数据库,综合考量了实现程度、具体开销、更新维护等指标,采用更适合知识图谱存储的图数据库。图数据库中的节点代表实体,边代表关系,这一点与知识图谱不谋而合。图数据库更加灵活,具极大的可扩展性,且更新维护更为便捷。综上所述,本文采用Neo4j图数据库作为存储甜樱桃产业知识图谱的工具。我们将之前处理好的数据导入Neo4j图数据库中,便可得到我国甜樱桃产业的知识图谱。
基于甜樱桃知识图谱的下游应用
通过以上步骤已经将甜樱桃产业的知识图谱进行了初步的构建,经过源源不断的数据采集与分析,将该知识图谱不断进行更新完善。在得到甜樱桃产业知识图谱之后,可基于该知识图谱开发相关的应用,比如在下游应用服务中采取快速检索、科学决策、产业指导等,使其为甜樱桃的实际生产发挥更大的价值和作用。
快速检索
作为甜樱桃知识图谱的基础服务,快速检索可以支持用户使用甜樱桃产业术语进行检索,并提供以点带面的服务,比如检索“美早可以查询到美早甜樱桃品种的种植地域、育种信息、经济性状等信息,检索结果通常以网状结构图的形式展现给用户。利用甜樱桃产业知识图谱进行检索可以减少用户从多源查询到不同数据类型的成本,有效提高了检索的速度。
科学决策
甜樱桃知识图谱汇集了大量的栽培信息,栽培过程中的相关病虫害数据、不同条件下的抗涝抗旱数据等,在这些数据的基础上进行数据挖掘,不仅可以对甜樱桃当年栽培过程中可能受到的灾害进行预测,而且能够在灾害发生前的第一时间快速预警,并提供相应的解决方案(所需药物种类、剂量等),使果农能够从容应对发生的灾害,做到保产增产。同时该知识图谱为智慧果园的建设提供了充足的数据支撑和依据,使甜樱桃智慧果园的建设指日可待。
产业指导
基于甜樱桃全产业链知识图谱构建,还能实现产业发展相关的决策与指导。该知识图谱内含海量的产业知识,能够在市场信息、试验数据、统计数据等知识的基础上,通过不同的深度学习方法进行数据分析,发现我国甜樱桃产业在生产和销售上存在的问题,并给予科学指导,使果园能够生产出更受大众欢迎的甜樱桃,提高果农收入。
总结与展望
本文面向甜樱桃产业,提供了一种构建该产业知识图谱的方法。将数据按照产前、产中、产后进行分类,针对各种类型的数据分别采用不同的方法进行知识抽取得到三元组,将这些三元组进行实体消歧和实体链接后将知识进行融合得到对应的知识库,再把对应的数据输入到Neo4j图数据库中进行形象化表示,最终得到我国甜樱桃产业的知识图谱,为我国甜樱桃产业知识的组织和更新提供了科学的框架和坚实的理论基础。从产业整体角度来说,可以完善产业布局,调整产业结构,为产业的各种决策提供科学辅助,为智慧果园的建设提供依据;从科研角度来说,完整全面的知识图谱可以大量节省科研人员查询该产业相关资料的时间,提高科研工作的效率;从果农角度来说,该知识图谱还能够提供诸多的解决方案,预防病虫害,对栽培技术提供指导,有利于保产增产,提高收入。因此,知识图谱的构建对我国甜樱桃产业具有划时代的作用和意义。
当然随着甜樱桃产业的发展,相关数据也会不断地实时更新,因此必须要对本体构建引起高度重视,保证本体结构能够与时俱进,才能更好地补充和完善该知识图谱。由于是初步构思,本文还存在诸多不足,首先所涉及的数据种类和数据量太大,会存在考虑不够全面的问题;其次在对整体架构进行设计时,对每一层级可能涉及不够全面,但每层所用方法均有所介绍。接下来的研究中可以使用智能化的方式进一步深入和改善。
本文来自微信公众号:中国果树(ID:China-Fruits),作者:王栋,周菲,李颖芳,刘伟云,王甲威,张倩,崔冬冬