GPTBot : le webcrawler un peu trop envahissant d'OpenAI
-
OpenAI vient de dévoiler un robot d’exploration web, GPTBot, pour entraîner ses modèles sur les pages de n’importe quel site. Heureusement il est possible d’empêcher partiellement ou totalement son accès à un site.
Il s’appelle GPTBot et pourrait devenir un cauchemar si vous ne le bloquez pas. Il s’agit d’un robot d’exploration web développé par OpenAI qui a pour but d’améliorer les modèles d’intelligence artificielle tels que GPT-4. Dans le détail, les pages Web explorées avec l’agent GPTBot « peuvent potentiellement être utilisées pour améliorer les futurs modèles et sont filtrées pour supprimer les sources qui nécessitent un accès au « paywall », sont connues pour recueillir des informations personnelles identifiables (PII) ou contiennent du texte qui enfreint nos politiques » indique OpenAI dans une page de documentation dédiée.
Si autoriser GPTBot à accéder à votre site peut aider les modèles d’IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité, les risques liés sont tout aussi importants. En effet, début juillet, la firme a ainsi été obligée de fermer la fonction Browse avec Bing en version bêta après des dérives observées. « Nous avons appris que la version bêta de ChatGPT Browse pour Bing de Microsoft peut occasionnellement afficher du contenu d’une manière que nous ne souhaitons pas. Par exemple, si un utilisateur demande spécifiquement le texte intégral d’une URL, il se peut que cette demande soit satisfaite par inadvertance » a indiqué OpenAI. Plusieurs signalements ont ainsi été rapportés après que l’agent ait répondu aux utilisateurs avec le texte intégral en contournant les paywalls, mais aussi les paramètres de protection de la vie privée. Une histoire qui pourrait coûter très cher à la firme compte tenu des violations éventuelles en matière de sécurité et de confidentialité d’informations personnelles.
Comment bloquer partiellement ou totalement l’accès de GPTBot aux sites
C’est pourquoi la firme explique également comment interdire à GPTBot d’accéder à votre site. « Pour interdire à GPTBot d’accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site » explique OpenAI, (User-agent: GPTBot ; Disallow: /).
Pour ceux qui souhaiteraient plutôt personnaliser cet accès et autoriser GPTBot à accéder uniquement à certaines parties d’un site, voici le code à ajouter : User-agent: GPTBot ; Allow: /directory-1/ ; Disallow: /directory-2/.
– Source :