Vous avez créé 500 pages. Google n'en connaît que 300.
Une surprise fréquente lors d'un audit : le sitemap liste moins de pages que ce qui existe réellement, ou inclut des pages qui ne devraient pas y être. Dans les deux cas, il y a un écart de couverture — et Google prend ses décisions avec des informations incomplètes.
Ce que fait un sitemap XML
Un sitemap XML est un fichier qui liste les URL que vous souhaitez faire connaître aux moteurs de recherche. Ce n'est pas un facteur de classement — c'est une aide à la découverte. Voyez-le comme une carte que vous remettez à Google.
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/page-one</loc>
<lastmod>2026-03-15</lastmod>
</url>
</urlset>
Googlebot continue de crawler en suivant les liens, mais le sitemap l'aide à trouver des pages qui ne sont peut-être pas bien liées en interne — surtout sur les grands sites ou les sites récents.
Quand le sitemap est vraiment important
- Les grands sites — avec des milliers de pages, certaines seront inévitablement mal liées
- Les sites récents — pas encore beaucoup de liens externes ni internes
- Les sites avec des changements fréquents — la balise
lastmodindique à Google ce qu'il faut re-crawler - Les sites riches en JavaScript — où Google peut avoir du mal à découvrir les liens
Problèmes courants de sitemap
| Problème | Impact |
|---|---|
| Pages absentes du sitemap | Google pourrait ne jamais les découvrir |
| Le sitemap inclut des pages noindex | Gaspille le budget de crawl sur des pages non indexables |
| Le sitemap inclut des URL en 404 ou redirigées | Signal d'un site mal entretenu |
| Le sitemap n'est pas référencé dans robots.txt | Google pourrait ne pas trouver le sitemap lui-même |
Dates lastmod obsolètes | Google perd confiance dans les données du sitemap |
| Le sitemap dépasse 50 000 URL ou 50 Mo | Doit être divisé en plusieurs sitemaps |
Ce qui devrait (et ne devrait pas) être dans le sitemap
Inclure :
- Toutes les pages indexables (retournant 200, non noindexées)
- Uniquement les versions canoniques des URL
- Les pages que vous voulez que Google priorise
Exclure :
- Les pages bloquées par robots.txt
- Les pages noindexées
- Les URL redirigées (3xx)
- Les pages d'erreur (4xx, 5xx)
- Le contenu dupliqué (versions non canoniques)
- Les pages nécessitant une connexion
Comment auditer la couverture du sitemap
Un audit rigoureux compare le sitemap avec ce qui existe réellement sur le site :
- Pages sur le site mais absentes du sitemap — couverture manquée
- Pages dans le sitemap mais retournant des erreurs — 404, 500, redirections
- Pages noindex dans le sitemap — signaux contradictoires
- Accessibilité du sitemap — est-il accessible et correctement formaté ?
- Référence dans robots.txt — votre robots.txt pointe-t-il vers le sitemap ?
Kaitico compare ses résultats de crawl avec votre sitemap lors de chaque audit, en signalant les écarts de couverture, les URL en erreur et les incohérences entre ce que votre sitemap déclare et ce que votre site sert réellement.