搜索引擎预处理工作原理
搜索引擎预处理工作原理!下面上海SEO(http://www.seote***.cn) 的小编给大家讲解一下。
1.关键词的提取:搜索引擎能够完全识别的主要还是以文字内容为主的网络资源。搜索引擎蜘蛛在爬取一个页面的同时也把大量的HTML代码抓取下来,如keywords,description,title,H, css, div标签等,而它的主要工作还是将HTML标签、程序等处理,然后提取用于排名计算的文字信息内容。
2.删除重复无用词:同一个词在一个网页中出现很多次,如“得”、“我”、“的”、“你”、“地”、“啊”、.“呀”、“却”、“再”、“从而”等这类的无用助词,出现的频率虽然很高,但是一旦反复出现就没太大价值了,一般这类词就归结为停用词。这类词也需要去除掉。
3.中文分词技术:分词是中文搜索引擎独有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我是中国人”拆分出来的形态是“我”、“是”、“中国”、“人”。分词技术的效率直接影响到整个系统的效率。
分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法。
1)基于字符串匹配的分词方法
按匹配方向的不同,可分为正向匹配、逆向匹配和少切词。可将这三种方法混合起来使用,即正向大匹配、逆向大匹配、正向小匹配、逆向小匹配。
正向大匹配:假设字典中长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。这样就可以将一个短语分成词语的组合了。
以“我是一个好人”为例,假设字典中长词语字数为3,正向大匹配顺序为:
(1)取出短语“我是中”,检查“我是中”是否在字典中存在或是一个单字,处理方式是去掉后面的“中”字;
(2)检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉“是”字;
(3)检查“我”字是否在字典中存在或是一个单字,“我”是一个单字,将“我”字输出;
(4)继续取出短语“是中国”,检查“是中国”是否在字典中存在或是一个单字,处理方式是去掉后面的“国个”字;
(5)检查短语“是中”是否在字典中存在或是一个单字,处理方式是去掉“中”字;
(6)检查“是”字是否在字典中存在或是一个单字,“是”是一个单字,将“是”字输出;
(7)取出短语“中国人”,检查“中国人”是否在字典中存在或是一个单字,处理方式是去掉后面的“好”字;
(8)检查短语“中国”,发现是字典中的一个词,直接输出;
(9)检查短语“国人”,发现是字典中的一个词,直接输出;
(10)后输出结果为:我、是、中国、人。
联系我们 021-51093095
更多精彩来源:http://www.seote***.cn
Q Q:3540497366
1.关键词的提取:搜索引擎能够完全识别的主要还是以文字内容为主的网络资源。搜索引擎蜘蛛在爬取一个页面的同时也把大量的HTML代码抓取下来,如keywords,description,title,H, css, div标签等,而它的主要工作还是将HTML标签、程序等处理,然后提取用于排名计算的文字信息内容。
2.删除重复无用词:同一个词在一个网页中出现很多次,如“得”、“我”、“的”、“你”、“地”、“啊”、.“呀”、“却”、“再”、“从而”等这类的无用助词,出现的频率虽然很高,但是一旦反复出现就没太大价值了,一般这类词就归结为停用词。这类词也需要去除掉。
3.中文分词技术:分词是中文搜索引擎独有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我是中国人”拆分出来的形态是“我”、“是”、“中国”、“人”。分词技术的效率直接影响到整个系统的效率。
分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法。
1)基于字符串匹配的分词方法
按匹配方向的不同,可分为正向匹配、逆向匹配和少切词。可将这三种方法混合起来使用,即正向大匹配、逆向大匹配、正向小匹配、逆向小匹配。
正向大匹配:假设字典中长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字,在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词;如果不存在就去掉这m个字的后一个字,接着检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。这样就可以将一个短语分成词语的组合了。
以“我是一个好人”为例,假设字典中长词语字数为3,正向大匹配顺序为:
(1)取出短语“我是中”,检查“我是中”是否在字典中存在或是一个单字,处理方式是去掉后面的“中”字;
(2)检查短语“我是”是否在字典中存在或是一个单字,处理方式是去掉“是”字;
(3)检查“我”字是否在字典中存在或是一个单字,“我”是一个单字,将“我”字输出;
(4)继续取出短语“是中国”,检查“是中国”是否在字典中存在或是一个单字,处理方式是去掉后面的“国个”字;
(5)检查短语“是中”是否在字典中存在或是一个单字,处理方式是去掉“中”字;
(6)检查“是”字是否在字典中存在或是一个单字,“是”是一个单字,将“是”字输出;
(7)取出短语“中国人”,检查“中国人”是否在字典中存在或是一个单字,处理方式是去掉后面的“好”字;
(8)检查短语“中国”,发现是字典中的一个词,直接输出;
(9)检查短语“国人”,发现是字典中的一个词,直接输出;
(10)后输出结果为:我、是、中国、人。
联系我们 021-51093095
更多精彩来源:http://www.seote***.cn
Q Q:3540497366