» G1Script.Com » Webmastering » Les Dossiers Webmasters » Le Fichier Robots.Txt


  • » Le Fichier Robots.Txt

    Nous allons vous expliquer, ici ,le fonctionnement du fichier robots.txt.

    Son avantage ?, il vous permettra d'avoir vos pages web indexées par la plus part des robots utulisés par les moteurs de recherche.

    Il va aussi vous permettre d'interdire l'acces à certaines de vos pages aux moteurs de recherches.

    En gros, pour simplifier les choses, le fichier " robots.txt " qui devra OBLIGATOIREMENT se trouver à la racine de votre site internet, donnera simplement des instructions au spider du moteur en lui indiquant ce qu'il peut faire et ce qu'il ne doit pas faire .

    Quand un robot arrive sur un site pour indexer ces pages ou simplement pour voir les pages ajoutées (par exemple, http://www.votresite.com/), il va automatiquement rechercher le fichier " robots.txt " à la racine du site qui sera donc à l'adresse http://www.votresite.com/robots.txt avant de rechercher nimporte quelle autre page.

    Si ce fichier existe, il commencera par lire les instructions qu'il contient et suivra les commandes à la lettre.

    Si de surcroit il ne trouve pas de fichier " robots.txt " à la racine de votre site, il commencera son travail de lecture et d'indexation de vos pages afin de les ajouter à sa base de données, considérant que rien ne lui est interdit.

    En outre, vous ne pouvez avoir qu'un seul fichier robots.txt sur votre serveur, qui doit se trouver a la racine de votre site, et le fichier doit TOUJOURS être écrit en minuscules.

  • » Le style de contenu se présente de la façon suivante :

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /temps/
    Disallow: /personel/
    Disallow: /services/infoprix.htm

  • » Explication :

    User-agent: * signifie que l'accès est accordé à tous les robots.
    Disallow: signifie simplement que l'accès est refusé au robots.
    Disallow: /cgi-bin/ : l'accès est refusé aux robots dans le dossier cgi-bin
    Disallow: /temps/ : l'accès est refusé aux robots dans le dossier temps
    Disallow: /personel/ : l'accès est refusé aux robots dans le dossier personnel
    Disallow: /services/infoprix.html : l'accès est refusé aux robots pour la page infoprix.htm dans le dossier services

    En prenant l'exemple du dossier /temps/, et en imaginant que vous avez une page nommé aide.htm dans le dosier /temps/, son url serra donc: http://www.votresite/temps/aide.htm

    En mettant la commande " Disallow: /temps/ " aucun robot ne pourra indexer la page aide.htm qui se trouve dans le dossier /temps/ vu que vous lui interdisez l'accès.

    Ne jamais laisser de lignes vierges ou blanches ( ENTER ) le robot l'interprèterait comme étant la fin du fichier.

    L'étoile (*) quand à elle, est acceptée uniquement dans le champ User-agent.

    Comme dans le language PHP, le signe " # " est considéré comme étant une ligne à ne pas prendre en compte et sert à inclure des commentaires.

    Attention à toujours mettre le signe " # " au début d'une ligne pour faire un commentaire.

  • » Infos :

    Nom des principeaux robots
    Altavista : Scooter
    Hot Bot : Slurp
    Lycos : T.Rex
    Northern Light : Gulliver

    [dossier précédent] - [dossier suivant]


  • » Source / Remerciement / Contribution
    « Nous remercions Espace-webmaster, pour sa contribution. »
  •   2892 visualisations. Dernière modification le 01-01-1970 01:00:00
    Devenir partenaire | Faire connaître cette page | On travail...
    Liste de diffusion : déjà 10800 Inscrits

    Nos partenaires :
    www.stvalentin.be - La liste est en cours de production -