robots.txt.html : noindex est obsolete

Faisant suite à #4103 (closed) , il semble que les directives noindex du robots.txt.html ne sont plus valables car ainsi que le dit b_b : « noindex n'est plus pris en compte par google depuis 2019, cf : https://www.webrankinfo.com/dossiers/conseils/disallow-noindex-nofollow https://www.blogdumoderateur.com/google-fin-noindex-robotstxt/ Ce qui voudrait dire que ces directives sont inutiles, et donc que le comportement actuel est celui que vous souhaitez »

Et google-dev FR annonçait en effet ce changement sur https://developers.google.com/search/blog/2019/07/a-note-on-unsupported-rules-in-robotstxt : « nous supprimerons le 1er septembre 2019, tout code qui gère les règles non compatibles et non publiées (par exemple, noindex). » Les seules directives valables sont user-agent, allow, disallow et sitemap.

Fichier concerné : https://git.spip.net/spip/dist/src/branch/master/robots.txt.html

Rq :

  • On voit dans la doc que les * en fin d'url sont inutiles pour google au vu de https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt et pourraient être supprimées dans Disallow: /spip.php?action=* et Disallow: /spip.php?page=login*

  • google n'est pas le seul moteur de recherche, donc on peut garder des directives qui ne le gênent pas si elles sont utiles à d'autres moteurs (par exemple Crawl-delay ?) mais il faut prioritairement que google comprenne les directives importantes (et donc utiliser disallow plutôt que noindex)