Blog - Technique

Rubriques

FermerLe livre

FermerDevenir Webmaster

FermerSécurité

FermerBlack hat

FermerTechnique

FermerAccessibilité Internet

FermerContenu

FermerServices

FermerRéférencement

FermerWeb marketing

FermerCMS

FermerGuppY

FermerVidéos

FermerGestion de projets

FermerVie du site

FermerLe Webmaster

FermerHors de propos

Derniers billets

Technique

png/softwareD.pngLe fichier robots.txt  -  par RV

Les CMS contiennent dans leur archive un fichier robots.txt, à quoi sert ce fichier ? comment le personnaliser ?

Utilité :

Ce fichier sert à orienter les robots et moteurs de recherche sur votre site. Vous pouvez :

  • Interdire certaines pages aux robots
  • Interdire certains robots
  • Interdite certains robots sur certaines pages
  • Déclarer votre sitemap.xml


La balise meta de votre site (voir config générale dans GuppY par exemple) peut aussi interdire l’indexation attention donc à faire correspondre robots.txt avec la balise meta robots.

Syntaxe

  • L’écriture est relativement stricte :
  • Les majuscules minuscules n’ont aucune importance
  • Les espaces ne sont pas obligatoires

Chaque ligne doit commencer par :

  • # : Pour les commentaires
  • User-Agent : pour sélectionner le robot (* pour tous)
  • Disalow : pour spécifier un nom de dossier ou de fichier

Le robots.txt de GuppY

User-agent: *
Disallow: /admin/
Disallow: /data/
Disallow: /file/
Disallow: /img/
Disallow: /inc/
Disallow: /install/
Disallow: /mobile/
Disallow: /pages/
Disallow: /photo/
Disallow: /plugins/

Tous les moteurs sont autorisés mais on leur interdit différents fichiers.

Règles générales

  • Un seul fichier par site, ne mettez pas de robots.txt dans tous vos dossiers, seul la racine est nécessaire.
  • Le nom du fichier doit être inscrit en minuscules
  • Les sections par agent sont séparées par le choix de l’agent : User-agent
  • Un seul fichier ou dossier par ligne Disallow

Règles multi Moteurs

  • Allow n’existe pas
  • Le symbole * n’est pas autorisé en disallow comme *.gif

Règles Google

Cette règle n'est utilisable qu’après un User-agent: Googlebot.

  • * et $ sont possibles dans les règles disalow Disallow: /*.png$ permettra de ne pas indexer vos images png.

Déclarer un sitemap

Si vous avez un sitemap sur votre site il est possible de le déclarer dans robots.txt en utilisant :

  • Sitemap: http://www.votresite.ext/sitemap.xml

 

Publié le 19/05/2008 @ 14:18  
AddThis Feed ButtonTous les billets  Prévisualiser  Imprimer l'article 


Commentaires


Personne n'a encore laissé de commentaire.
Soyez donc le premier !

 
Archives

08-2010 Septembre 2010 10-2010
L M M J V S D
    01 02 03 04 05
06 07 08 09 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      

Derniers commentaires

Billets des amis
[]
Nombre de membres 31 membres
Connectés : ( personne )

 
Partenaires
 
^ Haut ^