最近有一位朋友问我 Google Search Console(以下简称 GSC)中较多网页都是“已发现 – 尚未编入索引”(Discovered But Currently Not Indexed)
“已发现 – 尚未编入索引” 的说明
首先看下官方的内容。英文版内容如下:
Discovered – currently not indexed: The page was found by Google, but not crawled yet. Typically, Google tried to crawl the URL but the site was overloaded; therefore Google had to reschedule the crawl. This is why the last crawl date is empty on the report.
中文版如下:
已发现 – 尚未编入索引:Google 已发现相应网页,但尚未将其编入索引。这通常意味着:Google 尝试抓取该网址了,但当时相应网站正处于超载状态;因此,Google 不得不重新安排抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。
注:我认为这里的超载并不是服务器的超载,而是抓取队列的超载。
John Mueller 的解读
John Mueller 在 2018 年的 一次 hangout 中也对 “已发现 – 尚未编入索引” 的问题做了解读。他认为,首先,Google 并不会抓取和索引所有的网页,部分网页是没有太多抓取和索引的价值。其次,这些网页是已经被 Google 发现的,可能是通过 sitemap,也可能是通过内链。最后,Google 认为这些网页暂时没有太大的抓取价值,所以并没有将这些网页加入到抓取队列,于是就有了 “已发现 – 尚未编入索引” 的提示。
John Mueller 的建议
John Mueller 给出了 3 个针对性的建议。
第一、排查技术故障导致的多套 URL 问题因为很多网站因为技术问题,导致多套 URL 并存的情况,产生了重复页面,占用了抓取和索引的配额,也影响了整站的质量。
第二、确保内链系统的覆盖度所有网页都有内链导向,这一点对抓取的影响很大。可以通过第三方的抓取工具测试,看内链系统是否能覆盖所有的网页。
第三、压缩网页数量、提高网页质量通过压缩网站,网页的数量减少,网页的质量提高,都有利于收录的增长。
我的解读和建议
第一、每个网站都有抓取和索引的配额。也容易理解,Google 用于抓取和索引的服务器和数据库资源是有限的,会只抓取和索引更有价值的网页。
第二、内链对网页优先级的影响。那网页的价值怎么确定呢,尤其是在抓取之前。内链是很重要的一个因素,如果有内链,则增加了加入抓取队列的可能性。
第三、问题主要在抓取环节。 并未到网页内容质量的环节,因为 Google 并未抓取网页。
第四、另一个解决方案,内链模块。John Mueller 有个建议并未点透,就是内链。可以针对 “已发现 – 尚未编入索引” 的网页做特定的内链模块,比如 “最近更新” 这个模块也能满足需求。
第五、网页数量的压缩。除了增加每个网页的内容之外,其实还有其他的方式来压缩网页的数量,提高 Google 抓取的效率,以及整站的质量。
参考链接
- 《Google Discovered But Currently Not Indexed Help》https://www.seroundtable.com/google-discovered-currently-not-indexed-help-26697.html
- 官方文档 《“索引涵盖范围状态”报告》https://support.google.com/webmasters/answer/7440203?hl=zh-Hans#discovered__unclear_status