知识图谱之知识抽取详细解读
大规模知识库的构建与应用需要多种技术的支持。通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。
本文将以知识图谱中的知识抽取技术为重点,选取代表性的方法,说明其中的相关研究进展和实用技术手段。
知识抽取
知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
1.1实体抽取
实体抽取也称为命名实体学习或命名实体识别,指的是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中的基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。
我们将实体抽取的方法分为4种:基于百科站点或垂直站点提取、基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。
1.2语义类抽取
语义类抽取是指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联, 作为实体层面上的规整和抽象。有一种行之有效的语义类抽取方法,包含三个模块:并列度相似计算、上下位关系提取以及语义类生成。
1.3属性和属性值抽取
属性提取的任务是为每个本体语义类构造属性列表,而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。
1.4关系抽取
关系抽取的目标是解决实体语义链接的问题。关系的基本信息包括参数类型、满足此关系的元组模式等。
在HotICN2018会议上,我们诚邀研究人员讨论如何定义知识图谱作为未来网络的一个重要组成部分,并且在数据科学和领域科学中有着巨大的变革潜力。我们可以讨论各种各样有趣的问题和挑战:我们在大数据中需要哪些知识?什么是有价值的知识,什么是信息垃圾?如何从数据结构中提取我们需要的知识?在获得知识之后,我们如何以计算机形式表达所获得的知识?因为知识的来源如此之多,您如何结合不同来源的知识?然后,在基于知识的计算过程中,机器如何使用知识来进行理性推理,或者做出感性决策和预测?
本文将以知识图谱中的知识抽取技术为重点,选取代表性的方法,说明其中的相关研究进展和实用技术手段。
知识抽取
知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
1.1实体抽取
实体抽取也称为命名实体学习或命名实体识别,指的是从原始数据语料中自动识别出命名实体。由于实体是知识图谱中的基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。
我们将实体抽取的方法分为4种:基于百科站点或垂直站点提取、基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。
1.2语义类抽取
语义类抽取是指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联, 作为实体层面上的规整和抽象。有一种行之有效的语义类抽取方法,包含三个模块:并列度相似计算、上下位关系提取以及语义类生成。
1.3属性和属性值抽取
属性提取的任务是为每个本体语义类构造属性列表,而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。
1.4关系抽取
关系抽取的目标是解决实体语义链接的问题。关系的基本信息包括参数类型、满足此关系的元组模式等。
在HotICN2018会议上,我们诚邀研究人员讨论如何定义知识图谱作为未来网络的一个重要组成部分,并且在数据科学和领域科学中有着巨大的变革潜力。我们可以讨论各种各样有趣的问题和挑战:我们在大数据中需要哪些知识?什么是有价值的知识,什么是信息垃圾?如何从数据结构中提取我们需要的知识?在获得知识之后,我们如何以计算机形式表达所获得的知识?因为知识的来源如此之多,您如何结合不同来源的知识?然后,在基于知识的计算过程中,机器如何使用知识来进行理性推理,或者做出感性决策和预测?