[résolu] Comment créer/modifier robot.txt ?

antistressantistress Member
octobre 2023 modifié dans Entraide

Bonjour,
Je vois que PluXml génère le fichier robot.txt https://github.com/pluxml/PluXml/issues/67#issuecomment-1398950618
Où le trouver dans l'arborescence pour le modifier ?
(je voudrais empêcher l'entraînement des IA par exemple https://linuxfr.org/users/antistress/liens/vous-pouvez-dire-a-google-si-vous-refusez-que-votre-site-serve-a-entrainer-ses-ia-via-robots-txt#comment-1937625)
Merci !

Mots clés:

Réponses

  • kowalskykowalsky Member
    septembre 2023 modifié

    bonjour @antistress
    la génération du fichier "robots.txt" (au pluriel) n'est pas encore implémentée dans les versions actuelles de PluXml.

    Pour avoir la fonctionnalité décrite, il faut récupérer la version en cours de développement "PluXml-master" sur Github. Après l'avoir installée, tu trouveras un menu en haut de la page "Paramètres -> Configuration avancée"
    /robots.txt : Créer - Afficher

    Toutefois le plus simple pour toi sera de le créer avec un éditeur de texte et le déposer à la racine de ton site. :)

    Et comme indiqué par @bazooka07 , attention à générer les bons liens vers PluXml, si celui ci n'est pas à la racine du site. Tu peux t'inspirer de https://kazimentou.fr/robots.txt puis rajouter le code requis pour bloquer les robots d'IA : https://www.cyberciti.biz/web-developer/block-openai-bard-bing-ai-crawler-bots-using-robots-txt-file/

    Important : toutes les directives "Disallow" doivent se trouver AVANT les directives "Allow". Ce code est donc à placer avant celui destiné à PluXml.

    Ce qui donnerait ce genre de fichier pour un site PluXml à la racine du site :

    #block AI bots
    User-agent: GPTBot
    User-agent: ChatGPT-User
    User-agent: Google-Extended
    User-agent: CCBot
    Disallow: /
    
    #PluXml
    User-agent: *
    Disallow: /config.php$
    Disallow: /install.php$
    Disallow: /sitemap.php$
    Disallow: /update$
    Disallow: /core$
    Disallow: /readme$
    Disallow: /plugins/$
    Disallow: /data/articles/$
    Disallow: /data/commentaires/$
    Disallow: /data/statiques/$
    Disallow: /themes/*.php
    Disallow: /data/medias/download$
    Allow: /data/medias/
    

    doc plus générale : https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=fr

  • Merci, mais la racine, c'est quel endroit dans l'arborescence : /htdocs/ ?

  • kowalskykowalsky Member
    septembre 2023 modifié

    Ça va dépendre du serveur de ton hébergeur :

    The folder can be called this on Linux systems:
    - htdocs
    - public_html
    - www

  • Bon j'ai testé en créant un fichier texte portant "hello" nommé robots.txt que j'ai placé dans htdocs, puis dans ma barre d'adresse j'ai tapé https://libre-ouvert.tuxfamily.org/robots.txt et j'obtiens "hello" donc je crois que c'est ça !
    Merci

Connectez-vous ou Inscrivez-vous pour répondre.