谷歌站点会根据你网站的问题通知你处理,常见的已抓取 – 尚未编入索引,和网址已提交,但貌似会返回软404错误,今天讨论的就是软404错误问题,首先我们先了解为什么会出现这种情况,还有软404与404有哪些区别?
一、什么是软404和404错误
通常,当用户请求的网页不存在时,服务器会返回 404(未找到)错误。此 HTTP 响应代码明确告知浏览器和搜索引擎:该网页不存在。因此,搜索引擎不会抓取该网页的内容(如果有),也不会将其编入索引。
404:简单说就是当用户输入了一个不存在的页面链接时,返回的页面会用一个404代码来表示,返回HTTP状态码为404。
软404:软404是用户访问的页面不存在时返回的不是一个404错误代码,而是200代码。引导用户继续访问访问网站,返回HTTP状态码为200。
可以根据HTTP状态查询工具 检测得知。
二、为什么会出现软404错误?
出现软404的主要原因有以下几点,根据自己操作问题,查找出问题所在。
1:服务器配置错误;
2:网站程序或模版出错;
3:网站被恶意攻击导致;
4:网站管理员失误造成。
5、DNS超时
6、robots.txt超时
7、动态网页的响应时间过长而造成网页载入时间过长。
三、软404对网站的影响
由于软404页面返回了404或410以外的状态码,搜索引擎就会认为该网页是个实际存在的资源页面,因此,搜索引擎可能会抓取该网址,并将其内容编入索引。造成网站中有大量的“资源未找到”页面被搜索引擎收录,从而影响到其它正常资源页面在搜索结果中的出现频率,甚至会降低搜索引擎对网站的收录。另外,这些页面还可能会出现在对“资源未找到”这个关键词的检索结果中。
四、、如何解决软404错误?
解决“软404”问题就是需要将错误信息页面的HTTP状态码设置为404(Not Found)或410(Gone),在处理请求的页面中加入以下代码:
@header(“http/1.1 404 not found”);
@header(“status: 404 not found”);
echo ‘echo 404’;
exit();
修改完成后,搜索引擎将不再收录这些页面,已经收录的页面将逐步从搜索引擎的索引中删除,页面的响应头信息如下:
HTTP/1.1 404 Not Found
Server: nginx/1.4.1
Date: Wed, 15 Jan 2014 09:04:36 GMT
Content-Type: text/html;charset=utf-8
……
五、谷歌站长工具建议的解决方法:
对于英文SEO人员,经常查看谷歌站长工具的建议是很有必要,谷歌站长工具建议称如果针对不存在的网页返回 404 或 410 以外的代码(或将用户重定向至首页等其他网页,而不是返回 404),则可能会出现问题。首先,这样就等于告诉搜索引擎通过该网址可以找到实际的网页。结果,搜索引擎可能会抓取该网址,并将其内容编入索引。因为 Googlebot 要使用很多的时间处理不存在的网页,可能无法迅速找到您的网址或频繁访问这些网址,也无法频繁地访问这些网址,从而影响对您网站内容的抓取量(另外,您一定也不希望自己的网站经常出现在 [未找到文件] 的搜索查询中)
对于不存在的网页的请求,我们建议您始终返回 404(未找到)或 410(已删除)响应代码。您可以将自己的网站配置为在返回 404 响应代码时显示自定义 404 网页,从而改善用户体验。例如,您可以创建网页(其中包含您最热门网页的列表)、指向您首页的链接或用于提供反馈的链接。您还可以使用网站站长工具自定义 404 窗口小部件,为自己的网站添加搜索框以及更多网站搜索选项。但请务必注意,仅创建显示 404 的网页是不够的,您还需要返回正确的 404 或 410 HTTP 响应代码。