
Meta, l'entreprise responsable de plateformes telles que Facebook et Instagram, utilise deux nouveaux robots pour explorer Internet à la recherche de données pour le développement et l'amélioration de ses modèles d'intelligence artificielle (IA).
Ces nouveaux outils ont été mis en place discrètement fin juillet, comme le rapporte Business Insider mercredi dernier (21).
L’introduction de ces robots marque une étape importante dans la stratégie de Meta visant à optimiser ses produits basés sur l’IA tout en contournant les blocages d’accès aux données imposés par les sites Web qui ne souhaitent pas partager leurs informations.

Outils de suivi pour la collecte de données sur les objectifs
Les nouveaux robots, appelés « Meta-ExternalAgent » et « Meta-ExternalFetcher », sont conçus pour collecter une vaste gamme de données sur le Web qui sont nécessaires pour former les modèles d'IA que Meta utilise dans ses différents produits et services.
Le « Meta-ExternalAgent » a la capacité d’indexer directement le contenu qu’il trouve, jouant un rôle crucial dans la collecte d’informations pour améliorer les capacités d’IA de l’entreprise.
En revanche, le « Meta-ExternalFetcher » vise à récupérer des informations spécifiques, dans le but d’améliorer l’assistant IA de Meta et d’autres fonctionnalités liées à ses produits.
Contourner les blocages grâce à une technologie avancée
Ce qui rend ces robots particulièrement remarquables est la technologie avancée qu'ils utilisent pour échapper aux blocages mis en place par les propriétaires de sites Web qui cherchent à empêcher le grattage de leurs données.
Traditionnellement, de nombreux sites Web utilisent un fichier appelé « robots.txt » pour restreindre ou interdire l’accès aux robots d’exploration automatisés, tels que ceux utilisés par Meta.
Cependant, les nouveaux robots de l'entreprise sont capables de contourner ces restrictions avec une grande efficacité, ce qui a suscité des inquiétudes parmi les administrateurs de sites Web et les experts en confidentialité numérique.
Vous devez savoir ceci aujourd’hui :
- WhatsApp révèle la liste de ceux qui vous ont bloqué si vous faites cela
- Appels vidéo sur Instagram : un guide complet
- URGENT! Une «arnaque BIA» fait des victimes dans une application bancaire
Efficacité des nouveaux bots de Meta
Selon un rapport de la startup de détection de contenu généré par l'IA Originality.ai, seuls 1,5% des principaux sites Web parviennent à bloquer le bot « Meta-ExternalAgent ».
Le « Meta-ExternalFetcher », à son tour, est encore plus efficace, étant bloqué par moins de 1% de ces pages. Cette performance représente une amélioration significative par rapport à « FacebookBot », un ancien robot d’exploration Meta bloqué par environ 10% de sites Web.
L’efficacité de ces nouveaux bots démontre la capacité de Meta à adapter ses technologies pour continuer à accéder aux données nécessaires à la formation de ses modèles d’IA, même face aux barrières imposées par les administrateurs du site Web.
L'entreprise, dirigée par Mark Zuckerberg, semble déterminée à garantir que ses systèmes d'IA puissent évoluer et devenir de plus en plus sophistiqués, alimentés par de vastes quantités de données collectées sur le Web.
Mise à jour de la politique et réactions du marché à la cible
En réponse aux préoccupations soulevées par les éditeurs et les administrateurs de sites Web, Meta a récemment mis à jour ses directives sur la manière d'exclure un domaine du scraping de données par les robots alimentés par l'IA de l'entreprise.
Selon un porte-parole de Meta, la société s'engage à honorer les demandes des éditeurs qui ne souhaitent pas que leur contenu soit utilisé pour former les modèles d'IA de Meta.
Cette mise à jour des politiques de l'entreprise reflète une tentative d'équilibrer ses besoins en matière de données avec le respect des préférences des propriétaires de sites Web.
Cependant, ce changement n’a pas suffi à calmer les esprits. La capacité des nouveaux robots à contourner le fichier robots.txt soulève des questions sur l’efficacité des mesures de protection des données actuellement utilisées sur le Web.
De plus, la capacité de Meta à suivre et à collecter des données de manière aussi extensive pourrait intensifier le débat sur la confidentialité et le contrôle que les grandes entreprises technologiques exercent sur les informations disponibles sur Internet.
Implications pour l'avenir de la collecte de données
L’introduction de ces nouveaux bots par Meta représente une évolution significative dans la manière dont l’entreprise collecte et utilise les données pour former son IA.
À mesure que les technologies d’IA s’intègrent davantage aux produits et services numériques, la demande de grands volumes de données pour alimenter ces systèmes augmente également.
En conséquence, les entreprises comme Meta recherchent des moyens de plus en plus sophistiqués pour accéder aux informations dont elles ont besoin, même dans un environnement où les confinements et les restrictions sont de plus en plus courants.
D’un autre côté, cette tendance pourrait entraîner une plus grande résistance de la part des propriétaires de sites Web, qui pourraient chercher de nouvelles façons de protéger leur contenu contre le grattage non autorisé.
En outre, la pression réglementaire sur les pratiques de collecte de données des Big Tech pourrait augmenter à mesure que les gouvernements et les organisations de protection de la vie privée cherchent à protéger les droits des utilisateurs à l’ère numérique.