vosinformations.com

Présentation du fichier robots.txt

robots.txt

lundi 24 septembre 2007

Le fichier robots.txt est un fichier texte contenant des commandes à destination des robots d’indexation des moteurs de recherche (google, yahoo...) afin de leur préciser les pages qui peuvent ou ne peuvent pas être indexées.

Les moteurs de recherches scrutent en permanence le web à la recherche de nouveaux sites et de nouvelles pages à visiter et indexer, pour permettre de répondre aux recherches des utilisateurs.
En plus de visiter les innombrables nouveautés qui leur sont proposés, ils recherchent aussi les espaces qui n’ont pas sollicité leur inscription.
Pour diverses raisons, certaines de vos pages peuvent être confidentielles, ou en tous cas votre objectif n’est pas de les diffuser largement sur les moteurs . De la même manière, un site ou une page en construction ne doivent pas être la cible d’une telle aspiration.
C’est là qu’intervient le fichier robots.txt, présent sur votre serveur et qui donnera des indications de comportement et mentionnera les interdictions de visites entières ou partielles que vous aurez indiquées. Idem pour un site en mutation ou déménagement, si un répertoire ou un fichier est supprimé ou est déplacé, il convient de le renseigner dans le fichiers robots.txt pour qu’il ne soit plus cherché, les robots revisitent périodiquement les pages indexées pour les remettre à jour.

Les moteurs de recherche utilisent un robot dénommé spider (araignée) ou crawler pour parcourir et indexer la toile.
Lorsqu’il scrute un site nouveau (trouvé ou proposé), le robot cherche en premier lieu ce fichier qui se trouve à la racine du site.
Si l’adresse de votre site est http://www.monsite.fr/ le spider cherchera, en premier lieu, dès son arrivée sur le site http://www.monsite.fr/robots.txt Précision importante, il doit impérativement se trouver à cet endroit et il ne peut y en avoir qu’un par site.

Si ce fichier existe, il le lit et se conforme au indications qui y sont inscrites.
S’il ne le trouve pas il effectue son travail de lecture et de sauvegarde de la page qu’il est venu visiter, considérant qu’a priori rien ne lui est interdit.
C’est le principe d’indexation, tout est permis – accès libre comme n’importe quel internaute – sauf restriction du webmaster.

Le fichier robots.txt (minuscules et au pluriel) est un fichier ASCII.

Il est conseillé d’utiliser un éditeur de texte tel que le Bloc-notes, NotePad...
Des programmes comme Word sont utilisables, mais avec précaution, car ils rajoutent – sauvagement – des codes invisibles et le fichier sauvé sur le serveur peut parfois ne pas être au format ASCII pur.

La structure d’un fichier robots.txt est la suivante, le fichier est composé des deux instructions suivantes :

- User-Agent : nom du robot, permet de préciser le robot concerné par les directives suivantes. La valeur * signifie tous les moteurs de recherche.

- Disallow : permet d’indiquer les pages à exclure de l’indexation. Chaque page ou chemin à exclure est sur une ligne à part et doit commencer par / La valeur / toute seule, sans autre indication qui suit, signifie toutes les pages du site.


  • Exclusion de toutes les pages : aucune visite ou indexation n’est autorisée, tout est interdit.

User-Agent : *
Disallow : /


  • Exclusion d’aucune page , toutes les pages sont visitées :

User-Agent : *
Disallow :

Cela revient à l’absence de fichier robots.txt, ils sont libre de parcourir et d’indexer.


  • Autorisation d’un seul robot :

User-Agent : nomDuRobot
Disallow :

User-Agent : *
Disallow : /

La première consigne permet au « nomDuRobot » de visiter le site complet, la seconde interdit la visite à tous les autres. L’ordre est de la syntaxe est importante le robot « nomDuRobot » est autorisé, les autres interdits, si l’ordre est inversé, « nomDuRobot » ne parviendrait pas à la seconde indication, car il se sera arrêté à la première interdiction générale et quittera le site. (Principe de l’entonnoir)


  • Exclusion d’un robot :

User-Agent : NomDuRobot
Disallow : /

User-Agent : *
Disallow :

Même remarque que l’exemple précédent, dans un premier temps un robot particulier est exclu, dans un second, temps, les autres sont autorisés.


  • Exclusion d’une page en particulier :

User-Agent : *
Disallow : /repertoire/chemin/page.html

L’adresse du fichier est indiquée de manière relative, à partir de la racine du site, l’adresse de l’exemple précédent serait http://monsite.fr/repertoire/chemin...


  • Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :

User-Agent : *
Disallow : /repertoire/


User-Agent : *
Disallow : /Dormir/


User-Agent : *
Disallow : /Dormir/Bcp.html


Remarques :

Respectez la casse (majuscules et minuscules) des ordres et de vox fichiers : Disallow (et non disallow) /Dormir (et /non dormir).

L’écriture des ordres est Disallow : sans espace entre Disallow et :, puis 1] espace entre Disallow : et la suite.

Pas de ligne vide entre deux ordres, pour espacer vous pouvez vous servir de # pour incrémenter la ligne et commenter la ligne (utile pour se souvenir d’un ordre). Toute erreur de syntaxe, sera interprétée comme une absence de fichiers robots.txt et donc une autorisation de parcourir et d’indexer.

Voici l’exemple du fichier robots.txt du site

P.-S.

Portez une attention particulière à l’orthographe, d’abord du nom du fichier, il doit être écrit en minuscules robots.txt (et non ROBOTS.TXT).
Attention également au "s", robots.txt (et non robot.txt).
En cas d’erreur, le fichier est tout simplement ignoré et la liberté de l’automate totale.

Si le webmaster veut par exemple interdire l’accès au dossier cgi-bin (sur le serveur), alors que c’est Cgi-bin qui est renseigné, l’accès au dossier cgi-bin est autorisé au robot, qui pourra s’y rendre.

SPIP | | Plan du site | Suivre la vie du site RSS 2.0

Sauf mention contraire, le site est placé sous double licence Creative Commons BY-SA et GNU Free Documentation License.