robots.txt.html : noindex est obsolete
Faisant suite à #4103 (closed) , il semble que les directives noindex
du robots.txt.html ne sont plus valables car ainsi que le dit b_b : « noindex n'est plus pris en compte par google depuis 2019, cf :
https://www.webrankinfo.com/dossiers/conseils/disallow-noindex-nofollow
https://www.blogdumoderateur.com/google-fin-noindex-robotstxt/
Ce qui voudrait dire que ces directives sont inutiles, et donc que le comportement actuel est celui que vous souhaitez »
Et google-dev FR annonçait en effet ce changement sur https://developers.google.com/search/blog/2019/07/a-note-on-unsupported-rules-in-robotstxt : « nous supprimerons le 1er septembre 2019, tout code qui gère les règles non compatibles et non publiées (par exemple, noindex). » Les seules directives valables sont user-agent
, allow
, disallow
et sitemap
.
Fichier concerné : https://git.spip.net/spip/dist/src/branch/master/robots.txt.html
Rq :
-
On voit dans la doc que les * en fin d'url sont inutiles pour google au vu de https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt et pourraient être supprimées dans
Disallow: /spip.php?action=*
etDisallow: /spip.php?page=login*
-
google n'est pas le seul moteur de recherche, donc on peut garder des directives qui ne le gênent pas si elles sont utiles à d'autres moteurs (par exemple
Crawl-delay
?) mais il faut prioritairement que google comprenne les directives importantes (et donc utiliserdisallow
plutôt quenoindex
)