Le fichier robots.txt.
Le 19/12/2008
Utiliser efficacement le fichier robots.txt :
Un fichier "robots.txt" oriente les moteurs de recherche dans l'exploration de votre site. Ce fichier indique si une page doit être explorée ou non. Ce fichier, qui doit être nommé "robots.txt", est placé dans le répertoire racine de votre site.

L'adresse de notre fichier robots.txt

L'ensemble des robots des moteurs de recherche (signalé par le symbole joker *) ne doivent pas accéder et
explorer le contenu du repertoire / images / ni les URL qui commencent par / search
Vous souhaitez peut être que certaines pages de votre site ne soit pas explorées par les outils de recherche car leur indexation ne serait pas utile pour les utilisateurs qui effectuent une recherche. Si vous souhaitez empêcher l'exploration de vos pages par les moteurs de recherche, Google Webmaster Tools dispose d'un générateur de fichier robots.txt convivial pour vous aider à créer ce fichier.
Si vous utilisez des sous-domaines et que vous souhaitez que certaines pages ne soient pas explorées, vous devrez créer un fichier robots.txt pour chaque sous-domaine. Pour plus d'informations sur
le fichier robots.txt, nous vous suggérons de consulter le Webmaster Help Center guide.
D'autres méthodes existent pour éviter l'indexation d'un contenu par les outils de recherche : l'ajout d'un "Noindex" grâce aux balises META, la création d'un fichier .htaccess pour protéger vos répertoires... Vous pouvez consulter la vidéo de Matt
Cutts pour plus de renseignements sur ce sujet.
Bonnes pratiques pour le fichier robots.txt :
• Utiliser des méthodes plus sûres pour les contenus sensibles - Vous ne devez pas utiliser le fichier
robots.txt pour bloquer des données sensibles ou confidentielles. Les moteurs de recherche pourraient
référencer les URL que vous avez bloqué ( en indiquant simplement l'URL de la page sans son titre, ou sans extrait ). Certains moteurs de recherche qui ne savent pas interpréter les fichiers robots.txt pourraient examiner le contenu
des répertoires ou des sous-répertoires que vous voulez protéger. La protection par mot de passe avec .htaccess est une solution de rechange qui offre plus de garantis.
Évitez :
- l'accès à un trop grand nombre de pages ayant un contenu similaire ou légèrement différent. Posez vous la question : «Est-ce que 100.000 pages en double doivent être indexée par les moteurs de recherche de recherche ? "
- l'exploration des URL créées par les services de proxy
Source : traduction originale du texte "Google's Search Engine Optimization Starter Guide" publié par Google le 13/11/2008
|