23 avril 2026

Google va lister les fausses directives robots.txt, et c'est une très mauvaise nouvelle pour les audits SEO bricolés

Google prépare une liste des directives robots.txt non supportées les plus utilisées. Voici pourquoi cette annonce expose les audits SEO bricolés et les erreurs de gouvernance technique.

Google va lister les fausses directives robots.txt, et c’est une très mauvaise nouvelle pour les audits SEO bricolés

Le sujet peut sembler minuscule. Il ne l’est pas.

Cette semaine, Google a confirmé travailler sur une extension de sa documentation robots.txt pour y ajouter les 10 à 15 directives non supportées les plus utilisées dans le web réel. Le point important n’est pas seulement documentaire. Le vrai message est ailleurs : une partie du marché SEO continue de déployer des fichiers robots.txt avec des règles que Google ignore totalement.

Et ça, en 2026, ce n’est plus un détail technique. C’est un révélateur de niveau.

Le fait à retenir

Aujourd’hui, Google ne supporte officiellement que 4 champs dans robots.txt : user-agent, allow, disallow et sitemap.

Le reste est ignoré.

Pas mal interprété. Pas partiellement lu. Ignoré.

Gary Illyes a expliqué que Google ne voulait pas ajouter arbitrairement deux tags suggérés par la communauté. L’équipe a préféré regarder les données réelles issues de HTTP Archive et de BigQuery pour identifier les directives non supportées les plus fréquentes. En clair, Google a mesuré ce que les gens mettent vraiment dans leurs robots.txt avant de documenter ce qui ne sert à rien.

C’est sain. Et c’est aussi un peu humiliant pour toute une partie des pratiques SEO automatiques.

Pourquoi cette annonce compte vraiment

Beaucoup de sites ont un robots.txt généré par un plugin, un thème, une vieille agence, ou un copier-coller de 2018. Personne ne le relit. Personne ne le teste. Et tout le monde suppose que si c’est dans le fichier, Google le respecte.

C’est faux.

Dans les audits, je vois encore des cas où le robots.txt est traité comme une console de pilotage universelle. On y met des règles pour contrôler le crawl, l’indexation, certains bots, parfois même des intentions qui relèvent en fait des meta robots, des headers HTTP, du canonical ou tout simplement d’une mauvaise compréhension du protocole.

Le problème n’est pas esthétique. Le problème est opérationnel.

Si vous pensez bloquer une famille d’URLs mais que la directive est non supportée, vous continuez à exposer votre site au crawl. Si vous pensez transmettre une consigne claire alors qu’elle est ignorée, vous prenez des décisions sur un faux état du système. En SEO, ça finit toujours par coûter.

Ce que Google dit entre les lignes

Le point le plus intéressant n’est même pas la future liste.

Le point intéressant, c’est que Google a dû développer une métrique spécifique dans HTTP Archive pour parser les robots.txt ligne par ligne, parce que le dataset standard ne récupérait même pas ces fichiers. Ensuite, Illyes précise qu’après allow, disallow et user-agent, la courbe s’effondre très vite.

Autrement dit, il existe bien une longue traîne de directives exotiques, fautives ou inutiles, mais leur usage est marginal comparé au noyau utile.

Conclusion simple : la bonne pratique robots.txt tient en très peu de lignes.

Plus le fichier devient créatif, plus il y a de chances qu’il serve surtout à rassurer le prestataire qui l’a écrit.

L’autre signal à ne pas rater : la tolérance aux fautes

Google a aussi évoqué un possible élargissement des typos acceptées sur la directive disallow.

Là encore, le message est intéressant. Si Google envisage d’accepter davantage de fautes de frappe, c’est qu’il en voit beaucoup. Donc oui, il y a encore des sites importants avec des robots.txt mal orthographiés en production.

Soyons francs : si votre stratégie crawl dépend d’un mot-clé mal écrit dans un fichier texte public, vous n’avez pas un sujet SEO. Vous avez un sujet de gouvernance technique.

Ce qu’il faut faire maintenant

Pas besoin de refaire tout votre SEO. Mais il faut nettoyer.

Voici le plan utile :

relire le fichier robots.txt ligne par ligne
vérifier que chaque directive utilisée est réellement supportée par Google
supprimer les champs décoratifs, historiques ou ambigus
tester les sections critiques sur les répertoires stratégiques
séparer les sujets : crawl dans robots.txt, indexation dans meta robots ou headers, duplication via canonical, structure via sitemap propre

Un bon robots.txt n’est pas impressionnant. Il est court, lisible, justifié.

Mon avis

Cette annonce est utile parce qu’elle va forcer un ménage.

Le SEO souffre d’un vieux problème : trop de gens confondent complexité et compétence. Le robots.txt est un cas d’école. On trouve encore des fichiers chargés, commentés à moitié, parfois contradictoires, souvent hérités, et presque jamais reliés à une vraie stratégie de crawl.

Si Google commence à publier noir sur blanc les directives les plus utilisées mais non supportées, beaucoup d’audits vont devenir plus embarrassants. Et c’est tant mieux.

Le vrai niveau, ce n’est pas d’empiler des consignes. C’est de savoir lesquelles fonctionnent.

Sur un site qui fait du chiffre, une règle ignorée n’est pas une coquille. C’est une décision technique fausse. Et une décision technique fausse, répétée à l’échelle, finit toujours dans les logs, dans l’index, puis dans la facture.