已排除页面的处理方式-针对Google进行页面数据清洗

已排除页面的处理方式-针对Google进行页面数据清洗

官方 Google

一般来说,已排除页面不会被搜索引擎列入索引库中,因为种种原因,显示再Google Search Console的灰色区域内。但是这些页面链接存在于真实网页当中,并且可被用户点击访问到,必然会影响到网站的关键词排名效果。
原因很简单:页面存在链接,必定存在权重的判断。(链接投票模型)


Google官方:处于“已排除”状态的网页通常不会被编入索引,但这很可能是有意为之。



被“noindex”标记屏蔽了:
当 Google 尝试将相应网页编入索引时,它收到了“noindex”指令,因此未将该网页编入索引。如果您不希望该网页被编入索引,您的当前设置就是正确无误的。如果您希望该网页被编入索引,您则应移除该“noindex”指令。

被网页移除工具屏蔽了:
相应网页目前已被网址移除请求屏蔽。移除请求只在指定的时间段内有效(请参阅链接到的文档)。待此时间段过后,即使您未另行提交索引编制请求,Googlebot 也可能会再次访问该网页并将其编入索引。如果您不希望该网页被编入索引,请使用“noindex”、为该网页设置授权要求或移除该网页。如果您是一位经过验证的网站所有者,则可以使用网址移除工具查看是谁提交了网址移除请求。

已被 robots.txt 屏蔽:
robots.txt 文件禁止 Googlebot 访问相应网页。您可以使用 robots.txt 测试工具检查是否确实存在此情况。请注意,这并不意味着该网页不会被通过某些其他方式编入索引。 如果 Google 不必加载该网页就能找到与它相关的其他信息,那么该网页仍然可能会被编入索引(尽管这种情况不太常见)。为确保 Google 不会将该网页编入索引,请移除 robots.txt 中的屏蔽指令,然后改用“noindex”指令。

补充说明:noindex指令是写在特定页面<head>标签中的,由于部分程序使用通用模板文件调用的模式,所以在修改时,切记,检查其他页面是否也被noindex标记,导致索引骤降。

被屏蔽了,因为会返回“未授权的请求”(401) 错误:
Googlebot 无法访问相应网页,因为该网页设有授权要求(返回了 401 响应)。如果您希望 Googlebot 能够抓取该网页,请移除授权要求,或允许 Googlebot 通过验证自己的身份访问您的网页。

抓取异常:
抓取相应网址时发生了不明的异常情况。这可能意味着返回了 4xx 或 5xx 级别的响应代码;请尝试使用 Google 抓取工具抓取该网页,看看是否会遇到任何抓取问题。该网页未被编入索引。

已抓取 - 尚未编入索引:
Google 已抓取相应网页,但尚未将其编入索引。日后,该网页可能会被编入索引,也可能不会被编入索引;无论如何,您都无需重新提交该网址以供抓取。

已发现 - 尚未编入索引:
Google 已发现相应网页,但尚未将其编入索引。这通常意味着:Google 尝试抓取该网址了,但当时相应网站正处于超载状态;因此,Google 不得不重新安排抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。

备用网页(有适当的权威标记):
相应网页与 Google 所识别出的权威网页重复,并且该网页正确地指向了这个权威网页,因此您无需执行任何操作!

重复网页(无权威标记):
相应网页与其他网页重复,并且这些网页都未被标记为权威网页。因此,我们认为该网页不是规范网页。您应明确地为该网址标记规范网页。要想了解哪个网页是规范网页,请点击相应的表格行以针对该网址运行 info: 查询,此功能应该会列出该网址的规范网页。

重复的非 HTML 网页:
相应的非 HTML 网页(例如 PDF 文件)与已被 Google 标记为权威网页的另一网页重复。通常只有规范网址会显示在 Google 搜索中。如果需要,您可在响应中使用包含 <link> 标记的 HTTP 标头指定规范网页。

Google 选择的权威网页与用户指定的不同:
相应网址被标记为一组网页的权威网页,但 Google 认为另一网址更适合作为权威网页。由于我们认为该网页是重复网页,因此没有将其编入索引,而是将我们选择的规范网页编入了索引。我们建议您将此网页明确标记为相应规范网址的重复网页。要想了解哪个网页是规范网页,请点击相应的表格行以针对该网址运行 info: 查询,此功能应该会列出该网址的规范网页。

未找到 (404):
当被请求时,相应网页返回了 404 错误。虽然没有任何让系统抓取该网址的明确请求,Google 依然发现了该网址。Google 可能已通过各种不同的方式得知了该网址:例如,有其他网页链接至该网址,或者该网址曾存在过但已被删除。Googlebot 可能会继续尝试访问该网址,这种行为可能会持续一段时间;虽然 Googlebot 会逐渐降低对该网址的抓取频率,但我们无法让它永久地忘记某个网址。如果此情况是有意为之,那么您可以忽略 404 响应。如果您的网页已不在原位置,请使用 301 重定向将用户转到新位置。您可点击此处阅读相关信息,以详细了解该如何对待网站上的 404 错误。

补充说明:301到新位置,不代表所有的404都可以301到首页。这是一个错误的做法,正确的做法如下:
  • 寻找404之前这个页面所做的 目标关键词。
  • 301至现有的对应目标关键词页面。


网页因法律投诉被移除了:
相应网页已被从索引中移除,因为我们收到了法律投诉。

补充说明:如果页面被大量投诉会导致Google重新审核你的网站,简单说就是K站。

网页会自动重定向:
相应网址是重定向网页,因此未被添加到索引中。

补充说明:这个不需要做特殊处理。

已加入待抓取队列:
相应网页已在待抓取队列中;请过几天再来查看该网页是否已被抓取。

补充说明:此选项中的URL有两种,第一种,Google初次判断页面质量有问题,处于待定阶段。第二种,Google真的暂未抓取。

软 404:
在我们看来,针对相应网页发出的请求返回了软 404 响应。这意味着所返回的内容只是一条便于用户理解的“未找到”消息,其中并未包含相应的 404 响应代码。我们建议为“未找到”网页返回 404 响应代码,以防止该网页被编入索引。

补充说明:这个会直接影响有效页面权重,请确保有效页面中不要出现软404错误。可以使用Xenu,Screamfrog等工具进行链接排查。

网址已提交,但又被移除了:
您提交了相应网页以供编入索引,但由于某种不明原因,该网页又被从索引中移除了。

网址已提交,但未被选为权威网址:
相应网址是一组重复网址中的一个,并且这些网址均未被明确标记为权威网页。尽管您已明确要求将该网址编入索引,但由于它是重复网址,且 Google 认为另一网址更适合作为规范网页,因此 Google 没有将该网址编入索引,而是将我们选择的规范网址编入了索引。此状态与“Google 选择的规范网页与用户指定的不同”状态的区别在于:在这种情况下,您已明确请求将该网址编入索引。

1 个评论

老师讲的很详细该网站去了

要回复文章请先登录注册