Le robots.txt en 2026 : un nouveau paradigme

Le fichier robots.txt a ete invente en 1994 pour dire aux crawlers web quelles parties de votre site ne pas visiter. Pendant 30 ans, il servait principalement a gérer Googlebot. En 2026, il est devenu un outil stratégique de visibilité IA.
Selon une analyse de Originality.AI (2025), 35% des sites du top 1000 mondial bloquent GPTBot. En Europe, le chiffre monte a 42% — largement a cause du RGPD et des inquietudes sur le scraping. Mais voici le problème : ces sites se privent volontairement de citations dans ChatGPT, Perplexity et d'autres moteurs IA.
Martin Splitt, Developer Advocate chez Google (Zurich) : "Le robots.txt est un gentleman's agreement, pas un mur de sécurité. Les bots bien eleves le respectent. Les mauvais l'ignorent. Votre stratégie doit recompenser les bots qui jouent le jeu."
Les bots IA a connaître en 2026
| Bot | Operateur | User-Agent | Respecte robots.txt | Bénéfice si autorise |
|---|---|---|---|---|
| GPTBot | OpenAI | GPTBot | Oui | Citations ChatGPT |
| ChatGPT-User | OpenAI | ChatGPT-User | Oui | Browsing en temps reel |
| ClaudeBot | Anthropic | ClaudeBot | Oui | Citations Claude |
| PerplexityBot | Perplexity | PerplexityBot | Oui | Citations Perplexity |
| Google-Extended | Google-Extended | Oui | Training Gemini | |
| Bytespider | ByteDance | Bytespider | Partiellement | Faible en Europe |
La stratégie de configuration AISOS
Notre approche est simple : autoriser les bots IA qui citent leurs sources, bloquer ceux qui ne le font pas. Voici la configuration type que nous recommandons :
# Googlebot - toujours autorise
User-agent: Googlebot
Allow: /
# Bots IA qui citent leurs sources - autorises
User-agent: GPTBot
Allow: /blog/
Allow: /glossaire/
Disallow: /admin/
Disallow: /api/
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /blog/
Allow: /glossaire/
Disallow: /admin/
Disallow: /api/
User-agent: PerplexityBot
Allow: /
# Bots d'entraînement sans citation - bloques
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Sitemap
Sitemap: https://votre-site.com/sitemap.xml
La logique : GPTBot et ClaudeBot sont autorises sur votre blog et votre glossaire (les pages que vous voulez voir citees), mais bloques sur les sections privees. Google-Extended (entraînement de Gemini) et Bytespider (TikTok/ByteDance) sont bloques car ils scrappent pour l'entraînement sans citer.
Les risques de bloquer les bots IA
Avant de bloquer tous les bots IA "par precaution", mesurez ce que vous perdez :
- Citations perdues — si GPTBot ne peut pas lire votre site, ChatGPT ne vous citera pas. Point
- Visibilité Perplexity — Perplexity crawle en temps reel. Un blocage = invisibilite instantanee
- Effet boule de neige — moins de citations IA = moins de mentions de marque = moins d'autorité = moins de SEO classique
Pour le complement avec le fichier llms.txt (qui guide les bots IA vers vos contenus clés), consultez notre guide llms.txt. Pour le contexte technique global, voir notre guide SEO technique 2026. Et pour optimiser ce que les bots IA crawlent, lisez notre article sur le crawl budget.
RGPD et robots.txt : le faux debat
Beaucoup d'entreprises européennes bloquent les bots IA "a cause du RGPD". C'est un raccourci dangereux. Le RGPD protégé les données personnelles, pas le contenu public de votre site web. Si votre blog est public, il est de toute façon accessible a tout le monde — y compris les bots IA.
La vraie question n'est pas juridique mais stratégique : voulez-vous être cité par les IA, ou pas ? Si oui, autorisez. Si non, bloquez. Mais ne confondez pas protection des données et peur du changement.
FAQ — Robots.txt et IA
Le robots.txt empeche-t-il vraiment le scraping ?
Non. Le robots.txt est un protocole volontaire — les bots bien eleves le respectent, les scrapers malveillants l'ignorent. Pour empecher le scraping reel, il faut des mesures techniques (rate limiting, Cloudflare, etc.).
Bloquer GPTBot empeche-t-il ChatGPT de parler de mon entreprise ?
Non, pas complètement. ChatGPT a déjà absorbe du contenu dans ses training data. Mais bloquer GPTBot empeche les mises a jour et le browsing en temps reel, ce qui réduit progressivement vos citations dans les nouvelles conversations.
Peut-on autoriser GPTBot sur certaines pages seulement ?
Oui, c'est exactement l'approche recommandee. Utilisez des directives Allow/Disallow spécifiques pour chaque bot IA, en n'autorisant que les sections que vous voulez voir citees.
Faut-il un robots.txt different pour chaque bot IA ?
Oui. Chaque bot à son propre User-Agent et mérite des directives spécifiques. GPTBot et ClaudeBot peuvent avoir les memes règles, mais Google-Extended et Bytespider méritent un traitement different.
A quelle fréquence mettre a jour son robots.txt ?
A chaque changement de stratégie IA ou de structure de site. En pratique, une revision trimestrielle suffit, sauf si de nouveaux bots IA apparaissent (ce qui arrive régulièrement en 2026).
Le robots.txt affecte-t-il le ranking Google ?
Pas directement. Le robots.txt affecte le crawl, pas le ranking. Cependant, si vous bloquez accidentellement des pages importantes, elles ne seront pas indexees — et donc pas classees.
Quelle est la différence entre Disallow et noindex ?
Disallow (robots.txt) empeche le crawl. Noindex (meta tag) permet le crawl mais empeche l'indexation. Pour les bots IA, le Disallow est plus efficace car il empeche complètement l'accès au contenu.
Votre robots.txt est-il configure pour l'ere IA ?
Nous auditons votre robots.txt et definissons la stratégie optimale pour maximiser vos citations IA tout en protegeant vos contenus sensibles.
Configurer mon robots.txt

