你做了 500 个页面,Google 只知道 300 个
审计网站时经常会遇到一个意外:站点地图列出的页面比实际存在的少,或者包含了不该出现的页面。不管是哪种情况,都存在覆盖率缺口——Google 在用不完整的信息做决策。
XML 站点地图是做什么的
XML 站点地图是一个文件,列出了你希望搜索引擎知道的 URL。它不是排名因素——它是一个发现辅助工具。可以把它理解为你交给 Google 的一份网站地图。
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/page-one</loc>
<lastmod>2026-03-15</lastmod>
</url>
</urlset>
Googlebot 仍然主要靠跟踪链接来爬取,但站点地图能帮助它发现那些内部链接不太好的页面——尤其是在大型网站或新网站上。
什么时候站点地图最重要
- 大型网站 — 页面数以千计,总有一些内部链接不到位
- 新网站 — 还没有多少外部链接和内部链接
- 内容频繁更新的网站 —
lastmod标签告诉 Google 该重新爬取哪些页面 - JavaScript 重度网站 — Google 可能难以发现 JS 渲染的链接
常见的站点地图问题
| 问题 | 影响 |
|---|---|
| 页面未包含在站点地图中 | Google 可能永远无法发现它们 |
| 站点地图包含 noindex 页面 | 浪费爬取预算在你不想被收录的页面上 |
| 站点地图包含 404 或重定向 URL | 表明站点地图维护不善 |
| robots.txt 中未引用站点地图 | Google 可能找不到站点地图本身 |
lastmod 日期过时 | Google 会对你的站点地图数据失去信任 |
| 站点地图超过 50,000 个 URL 或 50MB | 需要拆分成多个站点地图 |
站点地图里应该放什么、不该放什么
应该包含:
- 所有可索引的页面(返回 200 状态码,未设置 noindex)
- 仅包含 URL 的 canonical 版本
- 你希望 Google 优先处理的页面
不应该包含:
- 被 robots.txt 屏蔽的页面
- 设置了 noindex 的页面
- 重定向的 URL(3xx)
- 错误页面(4xx、5xx)
- 重复内容(非 canonical 版本)
- 需要登录才能访问的页面
如何审计站点地图覆盖率
一个合格的审计应该把站点地图和网站实际情况进行对比:
- 网站上有但站点地图里没有的页面 — 覆盖遗漏
- 站点地图里有但返回错误的页面 — 404、500、重定向
- 站点地图里的 noindex 页面 — 矛盾的信号
- 站点地图可访问性 — 能否正常访问且格式正确?
- robots.txt 引用 — 你的 robots.txt 是否指向了站点地图?
Kaitico 在每次审计中都会将爬取结果与站点地图进行对比,标记覆盖缺口、错误 URL,以及站点地图声明与网站实际情况之间的不一致。