北京

点击搜索

发布

拉勾教育使用NLP创建摘要

区域:
北京 > 海淀 > 中关村
类别:
软件工程师培训
地址:
创业大街
你有没有读过很多的报告,而你只想对每个报告做一个快速的总结摘要?你是否曾经遇到过这样的情况?拉勾IT课小编为大家分解
摘要已成为21世纪解决数据问题的一种非常有帮助的方法。在本篇文章中,我将向你展示如何使用Python中的自然语言处理(NLP)创建个人文本摘要生成器。
前言:个人文本摘要器不难创建——初学者可以轻松做到!
什么是文本摘要
基本上,在保持关键信息的同时,生成准确的摘要,而不失去整体意义,这是一项任务。
摘要有两种一般类型:
•      抽象摘要>>从原文中生成新句子。
•      提取摘要>>识别重要句子,并使用这些句子创建摘要。
应该使用哪种总结方法
我使用提取摘要,因为我可以将此方法应用于许多文档,而不必执行大量(令人畏惧)的机器学习模型训练任务。
此外,提取摘要法比抽象摘要具有更好的总结效果,因为抽象摘要必须从原文中生成新的句子,这是一种比数据驱动的方法提取重要句子更困难的方法。
如何创建自己的文本摘要器
我们将使用单词直方图来对句子的重要性进行排序,然后创建一个总结。这样做的好处是,你不需要训练你的模型来将其用于文档。
文本摘要工作流
下面是我们将要遵循的工作流…
导入文本>>>>清理文本并拆分成句子>>删除停用词>>构建单词直方图>>排名句子>>选择前N个句子进行提取摘要
示例文本
(2) 导入库
# 自然语言工具包(NLTK)
import nltk
nltk.download('stopwords')

# 文本预处理的正则表达式
import re

# 队列算法求首句
import heapq

# 数值计算的NumPy
import numpy as np

# 用于创建数据帧的pandas
import pandas as pd

# matplotlib绘图
from matplotlib import pyplot as plt
%matplotlib inline
(3) 导入文本并执行预处理
有很多方法可以做到。这里的目标是有一个干净的文本,我们可以输入到我们的模型中。
# 加载文本文件
with open('Apple_Acquires_AI_Startup.txt', 'r') as f:
  file_data = f.read()
这里,我们使用正则表达式来进行文本预处理。我们将
(A)用空格(如果有的话…)替换参考编号,即[1]、[10]、[20],
(B)用单个空格替换一个或多个空格。
查看更多北京电脑/网络信息

免责声明:此信息系发布者(UID:706755)自行发布,本站是服务平台,仅提供信息存储空间服务,该信息内容的真实性及合法性由该发布者完全负责。

© lieju.com 联系我们