Le référencement, ou l’indexation des pages d’un site internet est le point de départ du processus d’optimisation des moteurs de recherche. Le fait de permettre aux robots d’exploration d’accéder à votre contenu signifie que vos pages sont prêtes à accueillir des visiteurs et que vous souhaitez qu’elles apparaissent dans les SERP.
Cependant, il est préférable de tenir certains types de pages à l’écart des SERP. Ce qui signifie que vous devez ne pas les référencer pour faire en sorte qu’elles n’apparaissent pas dans l’index de recherche.
Dans cet article, je vous explique ce qu’est le référencement, pourquoi vous pourriez avoir besoin d’indexer ou de désindexer une page, quelles sont les techniques disponibles et comment ne pas référencer une page de la bonne manière.
Continuez à lire pour élargir vos compétences en matière de SEO, apprendre des astuces professionnelles et améliorer le classement de votre site internet dans les moteurs de recherche.
Qu'est-ce que le référencement dans les moteurs de recherche?
Le référencement, ou l’indexation, des moteurs de recherche est le processus de collecte, d’analyse et de stockage des pages afin de rendre leur récupération plus rapide et plus précise.
Les moteurs de recherche sont un outil pour les utilisateurs qui essaient de trouver des informations. Comme les utilisateurs veulent obtenir les réponses nécessaires (et pertinentes) le plus rapidement possible, les moteurs de recherche doivent organiser les informations disponibles à l’avance.
Les robots d’exploration balaient les informations de milliards de pages Web, les collectent et les conservent dans l’index de recherche, c’est-à-dire dans une énorme base de données. Selon Google, son index de recherche comprend plus de 100 millions de gigaoctets de données.
Comment une page Web est-elle ajoutée dans l'index de recherche?
Les robots d’exploration analysent les pages Web accessibles au public. Les méta directives robots (ou « métabalises ») sont des éléments de codage qui indiquent aux robots de recherche comment explorer les pages d’un site internet.
Les deux paramètres de base sont « index » et « noindex ». Par défaut, la page possède un paramètre « index ». Concrètement, les robots de recherche peuvent accéder à une page lorsque:
- la balise meta est absente,
la page possède un paramètre « index » indiqué dans la balise méta (<meta name= »robots » content= »index,nofollow »>),
- la balise méta ne contient pas de paramètre « noindex » (<meta name= »robots » content= »nofollow »>).
Par conséquent, si vous appliquez une balise méta « noindex » ou une directive dans un champ HTTP dans l’entête de votre page, vous demandez aux robots de recherche de ne pas l’analyser. Pour informer les moteurs de recherche de la liste des pages de votre site internet disponibles pour l’exploration, vous pouvez utiliser des sitemaps.
Étant donné que de nouveaux sites apparaissent constamment et que les robots de recherche analysent des milliards de pages chaque jour, il est évident que les moteurs de recherche ne peuvent pas analyser chaque page chaque jour. Les robots de recherche viendront périodiquement sur la page, pour vérifier s’il y a des changements.
De plus, pour éviter la surcharge des serveurs, les robots de recherche ne scannent pas simultanément toutes les pages d’un site internet. Ainsi, il peut s’écouler de quelques jours à plusieurs mois avant que l’ensemble du domaine soit inspecté et indexé.
Pourquoi une page ne doit-elle pas être référencée?
Dans certains cas, les pages d’un site internet ne doivent pas être référencées (ou indexées) par les moteurs de recherche. Voyons ensemble dans quels cas une page ne doit pas être référencée.
1. Lors de la création du site ou d’une page
Si vous êtes en train de créer votre site internet, il est nécessaire d’empêcher les moteurs de recherche de l’indexer. Il est préférable de ne pas indexer votre site lorsqu’il est encore en construction.
Ainsi, pendant la conception de votre site, la personnalisation du thème ou la créations de vos pages, les robots d’exploration ne doivent pas y avoir accès. On ne sait jamais quand les robots visiteront votre page. Et vous ne voulez pas que des informations incomplètes se retrouvent dans l’index, n’est-ce pas?
2. Les pages inutiles ou à contenu léger
Les moteurs de recherche se soucient de la qualité des pages et fournissent des directives sur la manière de créer des pages utiles avec un contenu de qualité. Le principe de base est de faire en sorte que vos pages soient principalement destinées aux utilisateurs, et non aux moteurs de recherche. Il faut également éviter les combines visant à améliorer le classement des moteurs de recherche (comme l’utilisation de textes ou de liens cachés, par exemple).
Par conséquent, si votre page ne contient pas d’informations utiles pour les utilisateurs, les robots de recherche peuvent la considérer comme du « contenu léger » et même pénaliser le site internet.
3. Les pages d'archives, d'auteurs et de catégories
Toutes les pages n’ont pas la même valeur pour les utilisateurs et ne doivent pas être disponibles dans les résultats des moteurs de recherche. Souvent, les blogs comportent de nombreuses pages d’archives, d’auteurs et de catégories qui, en soi, n’ont pas beaucoup d’importance pour les lecteurs. Lorsque ces archives ou catégories sont indexées, les internautes peuvent voir de nombreux résultats pour ces pages en plus des articles de blog.
Les pages d’archives ou de catégories n’ajoutent rien à l’expérience des utilisateurs venant des moteurs de recherche et peuvent ne pas les intéresser. Il peut donc être judicieux de ne pas indexer ces pages et de ne pas gaspiller le budget de crawl.
En d’autres termes, ne pas référencer de pages spécifiques permet de donner la priorité à l’exploration et d’obtenir de meilleurs résultats sur les SERP.
4. Les pages non informatives
Les sites internet comportent souvent des « pages de remerciement » qui vous permettent simplement d’exprimer votre gratitude envers les nouveaux clients qui ont effectué un achat ou les nouveaux abonnés qui ont laissé leurs coordonnées pour recevoir des bulletins d’information.
Ces pages de remerciement n’apportent aucune valeur ajoutée aux personnes qui utilisent les moteurs de recherche pour trouver des informations utiles. Pensez donc à ne pas référencer ces pages.
De même, la plupart des pages d’administration et de connexion devraient avoir une balise noindex.
5. Les pages personnelles
Le contenu qui n’est pas destiné aux moteurs de recherche, comme les informations confidentielles ou sensibles, doit également comporter une balise ou une directive « noindex ». Comme les mentions légales, les RGPV, etc. Vous pouvez également envisager de faire des paniers d’achat ou des pages de paiement d’une boutique en ligne des pages « noindex ».
Comment ne pas référencer une page?
Si vous avez décidé que vous deviez ne pas référencer une ou plusieurs pages, vous vous demandez probablement comment le faire rapidement et en toute sécurité. Dans cette section, je vais vous présenter différentes façons de procéder pour ne pas référencer une page.
Utilisation du fichier Robots.txt
Robots.txt est un fichier qui indique aux robots des moteurs de recherche les URL auxquelles ils peuvent accéder sur un site internet. Ce fichier est utile pour gérer le trafic des crawlers sur votre site Web. Un fichier robots.txt contient une ou plusieurs règles qui bloquent ou autorisent l’accès d’un crawler spécifique à un chemin particulier. Plus précisément, un fichier robots.txt peut permettre à certains moteurs de recherche d’explorer votre site internet et bloquer des pages pour d’autres moteurs de recherche.
Les deux règles de base du fichier robots.txt sont « allow » et « disallow ». Par défaut, un robot de recherche peut explorer n’importe quelle page ou n’importe quel répertoire, à moins que le fichier ne contienne une règle « disallow ».
Si vous souhaitez empêcher tous les moteurs de recherche (c’est-à-dire les agents utilisateurs) de parcourir votre site internet, vous pouvez utiliser la commande suivante :
User-agent: * Disallow: /
La partie « User-agent: * » signifie qu’il s’agit de tous les robots de recherche, et la règle « Disallow: / » indique que vous bloquez l’ensemble du site Web.
Quand utiliser le blocage via Robots.txt?
Si vous voulez éviter l’exploration de pages sans importance, le fichier robots.txt est d’une grande utilité car il fonctionne principalement par exclusion. Par exemple, vous pouvez demander aux robots de recherche de ne pas explorer les fichiers PDF de votre site internet en ajoutant les deux lignes suivantes:
User-agent: *
Disallow: /*.pdf
De même, pour un site WordPress, il est possible de bloquer l’accès à des répertoires tels que /wp-admin/, /wp-content/comments/ ou /wp-content/plugins/. Les commandes se présenteront de la manière suivante :
User-agent: *
Disallow: /wp-admin/
User-agent: *
Disallow: /wp-content/comments/
User-agent: *
Disallow: /wp-content/plugins/
Ainsi, vous empêchez les robots d’explorer et d’indexer votre dossier d’administration, vos commentaires et vos plugins.
Pourquoi faut-il éviter d’utiliser Robots.txt pour ne pas référencer une page?
Un fichier robots.txt n’est pas le meilleur moyen de maintenir une page hors de l’index de recherche. Tout d’abord, ce fichier peut empêcher les moteurs de recherche d’explorer les pages mais pas de les indexer. Si les robots trouvent l’accès à ces liens (même sur d’autres sites internet) et les considèrent comme importants, les URL arriveront dans l’index.
Deuxièmement, c’est aux moteurs de recherche de décider de suivre les instructions, il se peut donc que les robots d’exploration ignorent tout simplement votre fichier robots.txt. Enfin, n’importe qui peut accéder à un fichier robots.txt et voir les pages que vous souhaitez tenir à l’écart des robots de recherche. Vous ne pouvez pas non plus cacher des pages contenant des informations confidentielles de cette manière.
Utiliser un mot de passe
Comme les moteurs de recherche ne peuvent pas accéder aux pages protégées par un mot de passe, ces pages ne seront pas explorées ni indexées. Par conséquent, si vous définissez une protection par mot de passe, une page ou un site n’apparaîtra pas dans l’index.
Par exemple, lors de la création d’une boutique sur Shopify, votre site internet sera protégé par un mot de passe et ne sera donc pas indexé. Lorsque vous êtes prêt à lancer la boutique, vous devez supprimer la protection par mot de passe.
Ajouter une balises meta noindex
J’ai déjà mentionné les balises méta qui définissent l’interaction d’un robot de recherche avec une page. Il est nécessaire de noter que les robots de recherche peuvent voir et comprendre ces balises si un fichier robots.txt n’en bloque pas l’accès.
La syntaxe de base pour rendre une page noindex est <meta name= »robots » content= »noindex »>. Cette balise doit faire partie de la section <head> de la page dont vous bloquez l’indexation.
Si vous utilisez WordPress, vous pouvez facilement empêcher les moteurs de recherche d’indexer l’ensemble de votre site internet. Pour cela, il vous suffit d’aller dans la section Réglages-Lecture dans votre tableau de bord WordPress. Puis de cocher la case « Demander aux moteurs de recherche de ne pas indexer ce site ».
Cependant, comme c’est indiqué en dessous, certains moteurs de recherche peuvent ne pas prendre cette demande en considération.
Rendre une page non indexable sur WordPress
L’application d’une balise meta noindex à des pages distinctes dépend de la plate-forme, du constructeur de site ou du système de gestion de contenu que vous utilisez pour votre site internet. Pour être franc, de plus en plus de créateurs de sites facilitent le processus d’optimisation des pages pour les moteurs de recherche. Il peut donc être assez simple de bloquer l’indexation d’une page.
En tant que logiciel open-source de premier plan, WordPress offre de nombreux outils pour ne pas référencer une page. Le moyen le plus simple de bloquer l’indexation d’une page distincte est d’utiliser un plugin, tel que Rank Math, Yoast SEO ou All-in-One SEO. En utilisant ces plugins, vous pouvez ajuster les paramètres de SEO des pages individuelles ou des articles de blog.
Lorsque vous vous trouvez sur l’éditeur de page d’une page ou d’un article, rendez-vous dans la section de votre plugin SEO. Puis, vous devrez trouver une case pouvant ajouter ou non une balise noindex à votre page.
Comment vérifier si une page n’est pas référencée?
Après avoir bloqué l’indexation de la page, vous pouvez vouloir vous assurer que tout fonctionne correctement. Je vais vous montrer ici quelques moyens de vérifier si une page est référencée ou non.
La Google Search Console
Tout d’abord, Google Search Console propose l’outil d’inspection des URL qui vous permet de voir l’état actuel de l’indexation d’une page. En outre, vous pouvez tester une URL avec l’outil d’inspection d’une URL. Il examine la page en temps réel, de sorte que les données que vous obtiendrez avec ce test peuvent différer de celles de la page indexée.
Les extensions du navigateur
Plusieurs extensions permettent de vérifier l’état d’une page directement dans le navigateur. Dans Chrome, les extensions comme Website SEO Checker ou SEO Minion ne sont que quelques exemples.
De même, dans Firefox, vous pouvez trouver l’extension SeoQuake, Detailed SEO Extension, SEO Minion, etc.
Les outils d'audit de site
Vous préférez utiliser des outils sur votre PC et obtenir un audit complet? Vous pouvez profiter gratuitement de l’outil d’analyse de Screaming Frog. Il permet d’analyser votre site internet et de fournir une liste des pages bloquées par des robots.txt, des méta-robots ou des directives X-Robots-Tag telles que « noindex » ou « nofollow ».
Pourquoi et comment ne pas référencer une page - FAQ
Résumons brièvement ce qu’est l’indexation, la non indexation, pourquoi et comment ne pas référencer une page dans les moteurs de recherche.
Qu'est-ce que le référencement?
Le référencement ou l’indexation des moteurs de recherche effectuée par les bots ou les crawlers consiste à collecter, analyser et conserver des informations. Les index visent à organiser les données de différentes pages et à les rendre accessibles et utiles. Une page qui a le statut « index » est disponible pour les robots d’exploration.
Qu'est-ce que la non indexation?
La non indexation (ou noindex) consiste à bloquer l’accès aux pages d’un site internet et à les empêcher d’apparaître dans les résultats des moteurs de recherche.
Pourquoi ne pas référencer une page?
Lorsqu’un site internet comprend des pages qui n’ont pas beaucoup de valeur et ne devraient pas être visibles dans les SERP, il ne faut pas les référencer. Il faut les rendre « noindex ».
Les exemples les plus typiques sont les pages d’archives, de catégories, d’auteurs pour les blogs, ou les pages de connexion et d’administration. Il est également nécessaire de bloquer l’accès aux pages personnelles ou aux pages de remerciement.
Quels sont les meilleurs moyens pour ne pas indexer une page?
Le moyen le plus sûr est d’appliquer une balise méta « noindex » à la page concernée. Si vous avez un site WordPress, un plugin comme Rank Math ou Yoast SEO vous permet de faire cela très facilement.
En outre, vous pouvez restreindre l’accès aux répertoires du site Web, tels que /wp-admin/, à l’aide de commandes « Disallow » dans le fichier robots.txt.
Peut-on désindexer une page déjà dans l’index?
Oui, vous le pouvez. Si la page est devenue accessible aux moteurs de recherche par erreur, vous pouvez la désindexer et la supprimer de l’index.
Comment puis-je supprimer une page de l'index Google?
Une décision rapide mais temporaire pour supprimer une page est l’outil de suppression de la Google Search Console. Ensuite, n’oubliez pas de choisir un moyen approprié de gérer la situation définitivement (supprimer entièrement la page ou la rendre noindex).