Google Search Console 出现 "已发现 - 尚未编入索引" 解决方法

最近有一位朋友问我 Google Search Console（以下简称 GSC）中较多网页都是“已发现 – 尚未编入索引”（Discovered But Currently Not Indexed）

“已发现 – 尚未编入索引” 的说明

首先看下官方的内容。英文版内容如下：

Discovered – currently not indexed: The page was found by Google, but not crawled yet. Typically, Google tried to crawl the URL but the site was overloaded; therefore Google had to reschedule the crawl. This is why the last crawl date is empty on the report.

中文版如下：

已发现 – 尚未编入索引：Google 已发现相应网页，但尚未将其编入索引。这通常意味着：Google 尝试抓取该网址了，但当时相应网站正处于超载状态；因此，Google 不得不重新安排抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。

注：我认为这里的超载并不是服务器的超载，而是抓取队列的超载。

John Mueller 的解读

John Mueller 在 2018 年的一次 hangout 中也对 “已发现 – 尚未编入索引” 的问题做了解读。他认为，首先，Google 并不会抓取和索引所有的网页，部分网页是没有太多抓取和索引的价值。其次，这些网页是已经被 Google 发现的，可能是通过 sitemap，也可能是通过内链。最后，Google 认为这些网页暂时没有太大的抓取价值，所以并没有将这些网页加入到抓取队列，于是就有了 “已发现 – 尚未编入索引” 的提示。

John Mueller 的建议

John Mueller 给出了 3 个针对性的建议。

第一、排查技术故障导致的多套 URL 问题因为很多网站因为技术问题，导致多套 URL 并存的情况，产生了重复页面，占用了抓取和索引的配额，也影响了整站的质量。

第二、确保内链系统的覆盖度所有网页都有内链导向，这一点对抓取的影响很大。可以通过第三方的抓取工具测试，看内链系统是否能覆盖所有的网页。

第三、压缩网页数量、提高网页质量通过压缩网站，网页的数量减少，网页的质量提高，都有利于收录的增长。

我的解读和建议

第一、每个网站都有抓取和索引的配额。也容易理解，Google 用于抓取和索引的服务器和数据库资源是有限的，会只抓取和索引更有价值的网页。

第二、内链对网页优先级的影响。那网页的价值怎么确定呢，尤其是在抓取之前。内链是很重要的一个因素，如果有内链，则增加了加入抓取队列的可能性。

第三、问题主要在抓取环节。并未到网页内容质量的环节，因为 Google 并未抓取网页。

第四、另一个解决方案，内链模块。John Mueller 有个建议并未点透，就是内链。可以针对 “已发现 – 尚未编入索引” 的网页做特定的内链模块，比如 “最近更新” 这个模块也能满足需求。

第五、网页数量的压缩。除了增加每个网页的内容之外，其实还有其他的方式来压缩网页的数量，提高 Google 抓取的效率，以及整站的质量。

参考链接

《Google Discovered But Currently Not Indexed Help》https://www.seroundtable.com/google-discovered-currently-not-indexed-help-26697.html
官方文档《“索引涵盖范围状态”报告》https://support.google.com/webmasters/answer/7440203?hl=zh-Hans#discovered__unclear_status

文章版权归作者所有，未经允许请勿转载。

THE END