Le fichier robots.txt est un fichier qui permet aux propriétaires de sites web de contrôler l’accès de robots de moteurs de recherche à leur site. En utilisant des directives simples, ce fichier peut être utilisé pour indiquer aux robots quelles pages du site ils peuvent ou ne peuvent pas accéder.
Bien que le fichier robots.txt soit largement utilisé et considéré comme un moyen important de protéger les sites web, il est nécessaire de comprendre comment il fonctionne afin de s’assurer qu’il est utilisé de manière efficace. Dans cet article, nous allons explorer le fonctionnement du fichier robots.txt et comment il peut être utilisé pour protéger votre site web.
Comment créer un fichier « robots.txt » pour votre site web ?
Pour créer un fichier « robots.txt » pour votre site web, vous devez d’abord ouvrir un éditeur de texte (comme le Bloc-notes sur Windows ou TextEdit sur Mac). Ensuite, vous pouvez entrer les directives de votre fichier « robots.txt » dans le fichier, en utilisant la syntaxe suivante:
User-agent: [nom de l'agent]
Disallow: [chemin de la page ou du dossier à interdire]
Par exemple, si vous voulez interdire l’accès à une page appelée « nepasindexer.html » à tous les moteurs de recherche, votre fichier « robots.txt » devrait ressembler à ceci:
User-agent: *
Disallow: /nepasindexer.html
Ensuite, enregistrez le fichier sous le nom « robots.txt » et téléchargez-le sur votre serveur web à la racine de votre site (c’est-à-dire dans le même répertoire que votre fichier « index.html »). Vous devriez maintenant être en mesure de voir votre fichier « robots.txt » en accédant à l’URL « www.votresite.com/robots.txt ».
On notera que les fichiers « robots.txt » ne sont pas une garantie que les pages de votre site ne seront pas indexées par les moteurs de recherche. Ils ne sont qu’une suggestion pour les moteurs de recherche et ils peuvent choisir de ne pas suivre les directives de votre fichier.
Comment utiliser les directives « Disallow » et « Allow » dans le fichier « robots.txt » ?
Les directives « Disallow » et « Allow » sont utilisées dans les fichiers « robots.txt » pour indiquer aux moteurs de recherche quelles pages ou quels dossiers doivent être exclus ou inclus dans l’indexation du site.
Voici comment utiliser ces directives :
Disallow:
indique aux moteurs de recherche de ne pas indexer une page ou un dossier spécifique. Par exemple, si vous voulez empêcher l’indexation de la page « private.html », vous pouvez utiliser la directive suivante :
Disallow: /nepasindexer.html
Allow:
indique aux moteurs de recherche qu’une page ou un dossier spécifique peut être indexé, même s’il y a une directive « Disallow » pour le répertoire parent. Par exemple, si vous avez utilisé la directive « Disallow: /private/ » pour empêcher l’indexation de toutes les pages dans le dossier « private », vous pouvez utiliser la directive « Allow: /private/public.html » pour autoriser l’indexation de la page « public.html » dans ce dossier.
Voici un exemple de fichier « robots.txt » qui utilise les directives « Disallow » et « Allow » :
User-agent: *
Disallow: /nepasindexer/
Allow: /nepasindexer/public.html
NOTE : les directives « Disallow » et « Allow » sont ignorées par certains moteurs de recherche. De plus, ces directives ne sont pas une garantie que votre site sera ou ne sera pas indexé. Elles ne sont qu’une suggestion pour les moteurs de recherche et ils peuvent choisir de ne pas suivre ces directives.
Importance et intérêt du USER AGENT dans votre fichier
Un user-agent est une chaîne de caractères qui est envoyée par un navigateur web à chaque fois qu’il accède à un site web. Cette chaîne de caractères identifie le navigateur et peut également inclure des informations sur le système d’exploitation, la version du navigateur, et d’autres détails.
Les user-agents sont principalement utilisés par les serveurs web pour déterminer comment envoyer des données au navigateur de l’utilisateur. Par exemple, un serveur peut utiliser l’user-agent d’un navigateur pour envoyer une version mobile d’un site web à un utilisateur sur un téléphone mobile, plutôt que la version complète du site destinée aux ordinateurs de bureau.
Les user-agents sont également utilisés dans les fichiers robots.txt pour indiquer aux robots des moteurs de recherche quelles pages du site ils peuvent accéder et quelles pages ils doivent ignorer. Les robots des moteurs de recherche envoient leur propre user-agent lorsqu’ils accèdent au site, et le fichier robots.txt utilise cette information pour déterminer comment le robot doit être traité.
Prenons cinq exemples simples d’utilisation du user-agent dans un fichier robots.txt:
- Bloquer l’accès à tous les robots en utilisant la directive « User-agent: * ». Par exemple:
User-agent: *
Disallow: /
Cela signifie que tous les robots sont interdits d’accéder à toutes les pages du site.
- Autoriser l’accès à un robot spécifique en utilisant la directive « User-agent » suivie du nom du robot. Par exemple:
User-agent: Googlebot
Allow: /
Cela veut dire que le robot de Google, appelé Googlebot, est autorisé à accéder à toutes les pages du site.
- Bloquer l’accès à un robot spécifique en utilisant la directive « User-agent » suivie du nom du robot et de la directive « Disallow ». Par exemple:
User-agent: Bingbot
Disallow: /
Dans ce cas, on signifit que le robot de Bing, appelé Bingbot, est interdit d’accéder à toutes les pages du site.
- Autoriser l’accès à un sous-ensemble de pages en utilisant la directive « Allow » suivie d’un chemin d’accès. Par exemple:
User-agent: *
Allow: /pages-autorisees/
Disallow: /
Dans cet exemple, tous les robots sont autorisés à accéder aux pages situées dans le répertoire « pages-autorisees », mais qu’ils sont interdits d’accéder à toutes les autres pages.
- Exclure un sous-ensemble de pages en utilisant la directive « Disallow » suivie d’un chemin d’accès. Par exemple:
User-agent: *
Disallow: /pages-interdites/
Allow: /
Enfin, ici, tous les robots sont autorisés à accéder à toutes les pages du site, à l’exception de celles situées dans le répertoire « pages-interdites ».
Comment tester le fichier « robots.txt » pour s’assurer qu’il fonctionne correctement ?
Vous avez une multitude de façons de tester votre fichier robots.txt pour vous assurer qu’il fonctionne correctement. Voici quelques étapes que vous pouvez suivre:
- Assurez-vous que votre fichier robots.txt est placé à la racine de votre site web. Il doit être accessible à l’adresse « http://www.example.com/robots.txt » (en remplaçant « example.com » par le nom de votre domaine).
- Utilisez un outil en ligne comme Google Search Console pour vérifier votre fichier robots.txt. La Search Console vous permet de tester votre fichier et de voir quelles pages de votre site sont accessibles aux robots des moteurs de recherche.
- Utilisez l’outil « Fetch as Google » de la Search Console pour tester l’accès d’un robot spécifique à une page de votre site. Cela vous permet de vérifier que les directives de votre fichier robots.txt sont correctement appliquées.
- Utilisez un outil de simulation d’user-agent, comme Whatsmyuseragent.com, pour simuler l’accès à votre site en utilisant différents user-agents. Cela vous permet de vérifier que votre fichier robots.txt bloque ou autorise correctement l’accès aux robots en fonction de leur user-agent.
- Vérifiez manuellement l’accès à certaines pages de votre site en utilisant un navigateur web en mode navigation privée. Cela vous permet de vérifier que les directives de votre fichier robots.txt sont appliquées correctement pour les utilisateurs réels.
Il est important de tester régulièrement votre fichier robots.txt pour vous assurer qu’il fonctionne correctement et que les robots des moteurs de recherche accèdent à votre site de la manière souhaitée.