你网站的每个页面都在给 Google 发送无声信号
Googlebot 访问一个页面时,服务器最先返回的不是内容——而是一个三位数的数字。这个数字告诉 Google 页面是否正常、是否已搬家、是否不存在、还是坏了。Google 对这些数字非常认真。
对 SEO 重要的状态码
200 — 一切正常
这是你想要的。页面存在,内容加载了,皆大欢喜。你的大多数页面应该返回 200。
301 — 永久搬家
页面有了新地址。Google 会把排名权重转移到新 URL。URL 结构永久改变时用这个。
302 — 临时搬家
页面暂时在另一个 URL,但会回来。Google 保留原始 URL 在索引中。问题在于?很多网站在应该用 301 的时候用了 302,搞得 Google 不知道该排哪个 URL。
404 — 找不到
页面不存在。如果 Googlebot 跟着一个链接碰到 404,那个链接的价值就丢了。少量 404 是正常的(删除的页面),但太多说明网站被忽视了。
410 — 已删除
和 404 类似,但是有意的。它告诉 Google "这个页面是故意删除的,别找了。" Google 从索引中移除 410 页面比 404 更快。
500 — 服务器错误
你这边出了问题。如果 Google 反复遇到 500 错误,可能会降低爬取频率或从索引中移除受影响的页面。这是紧急情况——立即修复。
503 — 暂时不可用
服务器正在维护。Google 会稍后回来。在计划停机时使用这个,这样 Google 不会认为你的网站挂了。
需要警惕的模式
| 模式 | 意味着什么 |
|---|---|
| 内部链接上有大量 404 | 内部链接结构破损 |
| 该用 301 的地方用了 302 | 排名权重没有正确转移 |
| 重要页面上出现 500 错误 | 流量损失和可能被取消索引 |
| 重定向链(301 → 301 → 301) | 浪费爬取预算,稀释链接权重 |
| 软 404(空页面返回 200 状态) | Google 索引了无用的页面 |
软 404——隐藏的陷阱
软 404 是指页面返回 200 状态码,但显示的是"页面未找到"内容。对浏览器来说,它看起来像正常页面。对 Google 来说,这很困惑——服务器说"一切正常"但内容说"这里什么都没有"。
Google 在检测这些方面越来越好,但它们仍然浪费爬取预算,污染你的索引。
如何审计状态码
逐个检查状态码不现实。自动化爬取应该:
- 报告每个页面的状态码
- 标记 4xx 和 5xx 错误
- 检测重定向链和循环
- 识别软 404
- 找出该用 301 的 302
Kaitico 记录每个爬取 URL 的 HTTP 状态码,在审计报告中标记错误、重定向问题和软 404。