在分析抓取数据时不要低估高级过滤的力量 - 北京海淀北京大学IDC服务

区域：: 北京 > 海淀 > 北京大学
类别：: IDC服务
地址：: 在分析抓取数据时不要低估高级过滤的力量

在分析抓取数据时不要低估高级过滤的力量

在帮助客户处理主要的算法更新、解决技术SEO问题等方面上的一些问题时候，我经常对大型站点进行审计。这几乎总是需要一个彻底的站点爬行（通常是在一个固定的生命周期中有几次爬行）。当您使用SEO时，搜索引擎会对网站造成严重破坏，为了集中您的分析，您需要对这些抓取数据进行切片和切割。

有了良好的数据过滤，您就可以知道经常出现可能导致严重问题的页面类型、部分或子域的问题所在。一旦出现问题，您可以对这些领域进行深入分析，以更好地理解核心问题，然后解决需要去解决的问题。

从搜索引擎蜘蛛的角度上看，我已经介绍了我在Search Engine Land的两个爱的软件，DeepCrawl 和Screaming Frog。这两种工具都是的工具，我通常在企业爬行时使用“DeepCrawl”，同时也会使用“Screaming Frog”来进行爬行，这是一种更专注的方法。（注：我会使用DeepCrawl在访问客户顾问委员会。）在我看来，使用DeepCrawl和Screaming Frog的组合就像是使用出了锏，我经常会说当使用这两种工具时，效果会加倍。

下面，我将介绍几个在这两种工具中使用过滤的例子，这样您就可以对我所引用的内容有大致的了解和感觉。通过过滤抓取数据，您就可以对站点的特定区域进行隔离和处理了，以进行进一步的分析。当您开始这样做的时候，您也不会不放心了。所以让我们开始吧。更多文章阅读：国外VPS主机cn.blu***

可转位的页面

让我们从一个基本的，但是很重要的过滤器开始。在几个级别上，内容质量问题可能会有很大的问题，而且您肯定希望确保这些问题不会出现在可索引的页面上。当谷歌从质量的角度评估一个网站时，它会把您的整个网站都考虑进去。这当然也会包括所有被索引的页面。这是来自John Mueller的一段视频来解释这个问题的。

因此，当您在站点上出现问题时，是要通过可索引的URLs来过滤该列表，以便将您的分析集中在可能损害站点质量的页面上。但是我并不是说要忽略其他的URLs，因为它们没有被索引！您也应该完全关注他们。请记住，用户正在与这些页面进行交互，您不希望与用户合作地不愉快。在深入研究内容和/或其他质量问题时，隔离可以被索引的页面是很聪明的做法。

精简的内容+正则表达式=很棒的内容

对于喜欢正则表达式的人来说，我有好消息要告诉你们。DeepCrawl支持高级过滤的正则表达式。因此，您可以选择一个过滤器，然后选择“匹配正则表达式”或“不匹配正则表达式”来执行一些筛选。对了，有一个“不匹配正则表达式”筛选器可以开始您想要排除的URLs 和包含的URLs，这是非常棒的方法。

例如，让我们从使用管道字符开始，在过滤器中组合三个不同的目录形式。管道字符在正则表达式中则表示“或者”。

或者，排除特定的目录，然后将重点放在仅以两个或三个字符结尾的URLs上的方法怎样（这是我认为在特定审计期间从内容的角度看问题的一个URLs 的实际例子）：

或者，将页面类型的正则表达式与字数相混合，以确定页面类型或目录的真正精简的页面的方法怎么样？这就是为什么过滤功能如此强大（以及节省时间）的原因。

您可以想象到这幅画面。您可以包含或排除任何类型的URLs或模式。您可以在过滤器上层层筛选，以提高您的报告。聚焦大型的爬行效果是令人惊奇的。