KGB知识图谱实现金融行业的结构化信息抽取
随着计算能力的增强和互联网的普及,计算机和金融领域的结合也越来越密切,现阶段在自动化交易系统、智能投顾、欺诈识别等场景下已经取得的一定的成果。
在金融领域,迅速、全面、准确地获取有价值的行业信息是决定一个企业成败的关键。近些年,随着互联网和金融行业的快速发展,每天都有大量的金融文本产生,面对着海量的公司年报、公告、,其内容分散,数据稀疏,无结构化信息等特点逐渐凸显。如何在数据爆炸的信息中找到有价值的知识,将有价值的无结构化信息进行半结构化或结构化是首先需要解决的问题,而信息抽取则是知识发现的核心之一。
目前在金融领域中,文本内容的知识抽取主要依靠人工判断,分析人员一般需要阅读大量的相关文档(如:年报、公告、行业分析报告、等),然后从中获取关键信息,为决策提供依据。这种手工作业的方式效率较低,且依赖于从业人员的经验,学习门槛较高,不利于企业业务进一步拓展。
计算机领域中的自然语言处理技术是作为一门融合语言学、计算机科学、数学等学科特点于一体的技术,通过自然语言处理的相关技术可以从文本中取得半结构化的知识描述,然后由半结构化知识而构造的知识图谱,在解决金融领域相关问题时具有重要意义。NLPIR语义智能平台KGB知识图谱是基于汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时构建知识图谱。
KGB知识图谱核心技术具备以下特色:
KGB知识抽取
KGB(Knowledge Graph Builder)知识图谱是基于汉语词法分析的基础上,采用KGB语法实现了实时的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB知识图谱引擎可以定义不同的动作,增加、删除、修改、抽取等等。每一类动作还能自定义各类后处理程序。
语义智能分析
NLPIR大数据语义智能分析融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的新研究成果,是大数据时代语义智能分析的一大利器。NLPIR大数据语义智能分析十三大功能:精准采集、文档抽取、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索与编码转换。
语义准确搜索
JZSearch大数据语义搜索融合了自然语言理解、网络搜索和文本挖掘的技术,通过人机互动、深度机器学习后具有一定的语义推理能力,结合了人工智能技术的新一代搜索引擎,具有专业、高扩展性和高通用性的特点。NLPIR大数据语义智能分析平台是针对互联网内容处理的全技术链条的共享开发平台。