En référencement on se concentre la plupart du temps sur l’indexation et la visibilité des pages web. Mais parfois on voudrait bien ne pas être visible.
Comment faire pour ne pas référencer certaines pages, un site, des sous-domaines spécifiques ?
Soit on empêche aux robots d’explorer certaines pages du site (on bloque le crawl), soit on veut désindexer des pages qui seraient déjà indexées et référencées dans Google ou les autres moteurs de recherche.
Voici 4 méthodes pour désindexer une page web
Bloquer l’accès par un mot de passe
Les robots des moteurs de recherche ne peuvent à accéder à un espace protégé par mot de passe. C’est donc une méthode très intéressante pour ne pas indexer certaines pages, sites ou sous-domaines, idéal pour les sites de pré-prod notamment.
Soit avec le mode maintenance, soit par un fichier .htpasswd
Fichier robots.txt
Dans le fichier robots.txt à la racine de ton site, tu peux indiquer aux robots de ne pas accéder ni indexer un répertoire ou des URLs spécifiques de ton site.
Cela signifie que le robot n’ouvrira même pas la page (on parle de crawl) pour l’analyser, il la laissera de côté.
Par exemple, tu ne veux pas que les pages de résultats du moteur de recherche interne de ton site n’apparaissent dans Google :
Disallow: /?search=
À toi d’indiquer le pattern d’URL correspondant.
Une ligne Disallow par pattern à exclure.
La balise meta NoIndex
Il s’agit d’indiquer dans le code source de la page (section <head>), la la commande noindex de la balise meta robots pour bloquer l’indexation de la page :
<meta name='robots' content='noindex, nofollow'>
Via Yoast SEO, il est possible d’indiquer que tu ne souhaites pas que cette page soit indexée :
Cette méthode d’indication dans le code source n’empêche pas le crawl de la page. C’est-à-dire que les robots vont prendre le temps d’afficher et analyser la page pour se rendre compte que cette page ne doit pas être indexée. Cela coûte de l’énergie. Le mieux est donc de bloquer au niveau supérieur (robots.txt) directement au moment où tu crées ta page.
Cette commande est donc très pratique si tu avais laissé ta page accessible et que tu changes d’avis et que tu veux la désindexée.
Cela empêche la plupart des robots d’indexer la page.
L’en-tête HTTP X-Robots-Tag
NOTE : soit tu utilises l’entête HTTP, soit tu utilises la meta robots noindex mais pas les deux !
Il s’agit ici, pour les sites sur serveur Apache, du fichier .htaccess, une commande au niveau du serveur et non du code source de la page.
HTTP/1.1 200 OK (…) X-Robots-Tag: noindex (…)
L’indication dans l’en-tête HTTP permet de traiter des ressources autres que HTML, comme des images, des vidéos ou documents PDF par exemple.
Indiquer dans la Google Search Console la nouvelle consigne
L’étape suivante est de donner les consignes via la Google Search Console.
Tu peux faire une demande de suppression d’une page ou d’un pattern d’URL :
Vérifier la prise en compte via la Search Console
Si tu as choisis la méthode par balise meta robots, tu verras apparaître dans le rapport de Couverture « Exclues » les pages désindexées (mais toujours crawlées = explorées).
Code de réponse HTTP
Si tu veux supprimer une URL qui correspond à une page qui n’existe plus sur ton site, tu peux renvoyer un code 410 « la page n’existe plus » ou la rediriger en code 301 « redirection permanente » vers une autre page similaire plus intéressante.
J’espère que cet article sur la désindexation et le blocage du crawl t’aura servi. Abonne-toi à la liste email pour être informée de la prochaine session de Formation SEO et recevoir des contenus réservés à la communauté OptimiseMonRéférencement ↓