########## Tous ceux qu'on veut interdire... ########## # Respectent pas le robots.txt, mais on les met quand même au cas où ils se # décideraient à corriger ça. # Leur robot aspire toutes les pages! En plus ils sont puants et ne se gênent # pas pour le "faites ce que je dis, pas ce que je fais". # # Apparemment, ils n'essayent plus de crawler le web: c'est sur soumission # manuelle uniquement. Mais juste au cas où... User-agent: Art-Online # Ce site n'appartient pas au merveilleux monde sous contrôle de MSN... # Voir aussi . # (redirige sur une page au contenu # utile nul) User-agent: MSNBOT User-agent: msnbot # Une boite qui fait payer pour empêcher le plagiat par les et des # étudiants. # User-agent: turnitinbot # Bla bla bla truc pour que les entreprises vérifient leur image sur le web. # User-agent: CatchBot # L'air d'un truc payant. # User-agent: ICCrawler - iCjobs # Surveillance de marques de merde. # User-agent: R6_FeedFetcher User-agent: R6_CommentReader # Un foutage de gueule de trop... Si je ne peux pas empêcher leur sidewiki # de merde de polluer mes pages, je peux au moins envoyer se faire foutre # leur robot. C'est pas comme s'ils m'amenaient du trafic pertinent de # toute manière, c'pas... # http://talkbiz.com/blog/google-steals-the-web/ # http://www.ryanhealy.com/sidewiki-the-great-wall-of-google/ # http://www.marketersboard.com/google-sidewiki-controversy/ # http://community.ere.net/blogs/and-im-sticking-to-it/2009/10/three-ways-google-gets-evil-with-sidewiki/ # http://joshnotes.com/blogs/josh/google-sidewiki-www-18.html # http://davejones.ca/blog/2009/10/10/google-sidewiki-is-making-me-a-control-freak.html User-agent: Googlebot # Règle d'interdiction générale. Disallow: / ########## Règles générales ########## # A la fin parce qu'on s'arrête au premier qui matche. # C'est nascze d'indexer les flux, et c'est nascze pour un agrégateur de # lire le robots.txt avant de vouloir récupérer le flux. # Sont dans ce cas: BlogPulseLive, BlogVibeBot # Google débile: c'est le même user-agent pour Google blogs et pour les # pages de recherche standard!! #User-agent: Googlebot User-agent: Slurp User-agent: VoilaBot Disallow: /feed/ Disallow: /informatique/trousansfond/glue/ # Protège du piège les robots qui se comportent bien. User-agent: * Disallow: /informatique/trousansfond/glue/