北京

点击搜索

发布

在分析抓取数据时不要低估高级过滤的力量

区域:
北京 > 海淀 > 北京大学
类别:
IDC服务
地址:
在分析抓取数据时不要低估高级过滤的力量
在分析抓取数据时不要低估高级过滤的力量

在帮助客户处理主要的算法更新、解决技术SEO问题等方面上的一些问题时候,我经常对大型站点进行审计。这几乎总是需要一个彻底的站点爬行(通常是在一个固定的生命周期中有几次爬行)。当您使用SEO时,搜索引擎会对网站造成严重破坏,为了集中您的分析,您需要对这些抓取数据进行切片和切割。

有了良好的数据过滤,您就可以知道经常出现可能导致严重问题的页面类型、部分或子域的问题所在。一旦出现问题,您可以对这些领域进行深入分析,以更好地理解核心问题,然后解决需要去解决的问题。

从搜索引擎蜘蛛的角度上看,我已经介绍了我在Search Engine Land的两个爱的软件,DeepCrawl 和Screaming Frog。这两种工具都是的工具,我通常在企业爬行时使用“DeepCrawl”,同时也会使用“Screaming Frog”来进行爬行,这是一种更专注的方法。(注:我会使用DeepCrawl在访问客户顾问委员会。)在我看来,使用DeepCrawl和Screaming Frog的组合就像是使用出了锏,我经常会说当使用这两种工具时,效果会加倍。

下面,我将介绍几个在这两种工具中使用过滤的例子,这样您就可以对我所引用的内容有大致的了解和感觉。通过过滤抓取数据,您就可以对站点的特定区域进行隔离和处理了,以进行进一步的分析。当您开始这样做的时候,您也不会不放心了。所以让我们开始吧。更多文章阅读:国外VPS主机cn.blu***

可转位的页面

让我们从一个基本的,但是很重要的过滤器开始。在几个级别上,内容质量问题可能会有很大的问题,而且您肯定希望确保这些问题不会出现在可索引的页面上。当谷歌从质量的角度评估一个网站时,它会把您的整个网站都考虑进去。这当然也会包括所有被索引的页面。这是来自John Mueller的一段视频来解释这个问题的。

因此,当您在站点上出现问题时,是要通过可索引的URLs来过滤该列表,以便将您的分析集中在可能损害站点质量的页面上。但是我并不是说要忽略其他的URLs,因为它们没有被索引!您也应该完全关注他们。请记住,用户正在与这些页面进行交互,您不希望与用户合作地不愉快。在深入研究内容和/或其他质量问题时,隔离可以被索引的页面是很聪明的做法。

精简的内容+正则表达式=很棒的内容

对于喜欢正则表达式的人来说,我有好消息要告诉你们。DeepCrawl支持高级过滤的正则表达式。因此,您可以选择一个过滤器,然后选择“匹配正则表达式”或“不匹配正则表达式”来执行一些筛选。对了,有一个“不匹配正则表达式”筛选器可以开始您想要排除的URLs 和包含的URLs,这是非常棒的方法。

例如,让我们从使用管道字符开始,在过滤器中组合三个不同的目录形式。管道字符在正则表达式中则表示“或者”。

或者,排除特定的目录,然后将重点放在仅以两个或三个字符结尾的URLs上的方法怎样(这是我认为在特定审计期间从内容的角度看问题的一个URLs 的实际例子):

或者,将页面类型的正则表达式与字数相混合,以确定页面类型或目录的真正精简的页面的方法怎么样?这就是为什么过滤功能如此强大(以及节省时间)的原因。

您可以想象到这幅画面。您可以包含或排除任何类型的URLs或模式。您可以在过滤器上层层筛选,以提高您的报告。聚焦大型的爬行效果是令人惊奇的。
查看更多北京网站/软件服务信息

免责声明:此信息系发布者(UID:416996)自行发布,本站是服务平台,仅提供信息存储空间服务,该信息内容的真实性及合法性由该发布者完全负责。

© lieju.com 联系我们