Les CMS contiennent dans leur archive un fichier robots.txt, à quoi sert ce fichier ? comment le personnaliser ?
Utilité :
Ce fichier sert à orienter les robots et moteurs de recherche sur votre site. Vous pouvez :
- Interdire certaines pages aux robots
- Interdire certains robots
- Interdite certains robots sur certaines pages
- Déclarer votre sitemap.xml
La balise meta de votre site (voir config générale dans GuppY par exemple) peut aussi interdire l’indexation attention donc à faire correspondre robots.txt avec la balise meta robots.
Syntaxe
- L’écriture est relativement stricte :
- Les majuscules minuscules n’ont aucune importance
- Les espaces ne sont pas obligatoires
Chaque ligne doit commencer par :
- # : Pour les commentaires
- User-Agent : pour sélectionner le robot (* pour tous)
- Disalow : pour spécifier un nom de dossier ou de fichier
Le robots.txt de GuppY
User-agent: *
Disallow: /admin/
Disallow: /data/
Disallow: /file/
Disallow: /img/
Disallow: /inc/
Disallow: /install/
Disallow: /mobile/
Disallow: /pages/
Disallow: /photo/
Disallow: /plugins/
Tous les moteurs sont autorisés mais on leur interdit différents fichiers.
Règles générales
- Un seul fichier par site, ne mettez pas de robots.txt dans tous vos dossiers, seul la racine est nécessaire.
- Le nom du fichier doit être inscrit en minuscules
- Les sections par agent sont séparées par le choix de l’agent : User-agent
- Un seul fichier ou dossier par ligne Disallow
Règles multi Moteurs
- Allow n’existe pas
- Le symbole * n’est pas autorisé en disallow comme *.gif
Règles Google
Cette règle n'est utilisable qu’après un User-agent: Googlebot.
- * et $ sont possibles dans les règles disalow Disallow: /*.png$ permettra de ne pas indexer vos images png.
Déclarer un sitemap
Si vous avez un sitemap sur votre site il est possible de le déclarer dans robots.txt en utilisant :
- Sitemap: http://www.votresite.ext/sitemap.xml