Meta, empresa responsable de plataformas como Facebook e Instagram, utiliza dos nuevos bots para rastrear Internet en busca de datos destinados al desarrollo y mejora de sus modelos de inteligencia artificial (IA).
Estas nuevas herramientas se implementaron discretamente a finales de julio, como informó Business Insider el pasado miércoles (21).
La introducción de estos bots marca un paso significativo en la estrategia de Meta para optimizar sus productos basados en IA y al mismo tiempo evitar los bloqueos de acceso a datos impuestos por sitios web que no están dispuestos a compartir su información.
Herramientas de seguimiento para la recopilación de datos de objetivos
Los nuevos bots, llamados “Meta-ExternalAgent” y “Meta-ExternalFetcher”, están diseñados para recopilar una amplia gama de datos de la web, necesarios para entrenar los modelos de IA que Meta utiliza en sus diversos productos y servicios.
"Meta-ExternalAgent" tiene la capacidad de realizar una indexación directa del contenido que encuentra, desempeñando un papel crucial en la recopilación de información para mejorar las capacidades de inteligencia artificial de la empresa.
Por el contrario, “Meta-ExternalFetcher” tiene como objetivo obtener información específica, con el objetivo de mejorar el asistente de IA de Meta y otras funciones vinculadas a sus productos.
Evitar bloqueos con tecnología avanzada
Lo que hace que estos robots sean especialmente notables es la tecnología avanzada que emplean para evadir los bloqueos establecidos por los propietarios de sitios web que buscan evitar el robo de sus datos.
Tradicionalmente, muchos sitios web utilizan un archivo llamado “robots.txt” para restringir o prohibir el acceso de rastreadores automatizados, como los utilizados por Meta.
Sin embargo, los nuevos bots de la compañía pueden eludir estas restricciones de manera muy efectiva, lo que ha generado preocupación entre los administradores de sitios web y los expertos en privacidad digital.
Necesitas saber esto hoy:
- WhatsApp revela lista de quién te bloqueó si haces esto
- Videollamadas en Instagram: una guía completa
- ¡URGENTE! La “estafa de BIA” reclama víctimas en una aplicación bancaria
Efectividad de los nuevos bots de Meta
Según un informe de la startup Originality.ai, que se especializa en detectar contenido generado por IA, solo 1,51 TP3T de los principales sitios web logran bloquear el bot “Meta-ExternalAgent”.
El “Meta-ExternalFetcher”, a su vez, es aún más eficiente, siendo bloqueado por menos de 1% de estas páginas. Este rendimiento representa una mejora significativa en comparación con “FacebookBot”, un Meta tracker más antiguo, que está bloqueado por aproximadamente 10% de sitios web.
La eficacia de estos nuevos bots demuestra la capacidad de Meta para adaptar sus tecnologías para seguir accediendo a los datos necesarios para entrenar sus modelos de IA, incluso frente a las barreras impuestas por los administradores de sitios web.
La empresa, dirigida por Mark Zuckerberg, parece estar comprometida a garantizar que sus sistemas de inteligencia artificial puedan evolucionar y volverse cada vez más sofisticados, impulsados por grandes cantidades de datos recopilados en toda la web.
Actualización de políticas y reacciones del mercado ante el objetivo
En respuesta a las preocupaciones planteadas por editores y administradores de sitios, Meta actualizó recientemente sus pautas sobre cómo excluir un dominio de la extracción de datos por parte de los robots impulsados por inteligencia artificial de la compañía.
Según un portavoz de Meta, la empresa se compromete a responder a las solicitudes de los editores que no quieren que su contenido se utilice para entrenar los modelos de IA de Meta.
Esta actualización de las políticas de la empresa refleja un intento de equilibrar sus necesidades de datos con el respeto de las preferencias de los propietarios de sitios web.
Sin embargo, este cambio no fue suficiente para calmar a todos. La capacidad de los nuevos robots para eludir el archivo robots.txt plantea dudas sobre la eficacia de las medidas de protección de datos actualmente en uso en la web.
Además, la capacidad de Meta para rastrear y recopilar datos de una manera tan completa podría intensificar el debate sobre la privacidad y el control que las grandes empresas tecnológicas tienen sobre la información disponible en Internet.
Implicaciones para el futuro de la recopilación de datos
La introducción de estos nuevos bots por parte de Meta representa una evolución significativa en la forma en que la empresa recopila y utiliza datos para entrenar su IA.
A medida que las tecnologías de IA se integran más en los productos y servicios digitales, también crece la demanda de grandes volúmenes de datos para impulsar estos sistemas.
Como resultado, empresas como Meta buscan formas cada vez más sofisticadas de acceder a la información que necesitan, incluso en un entorno donde los bloqueos y restricciones son cada vez más comunes.
Por otro lado, esta tendencia puede generar una mayor resistencia por parte de los propietarios de sitios web, quienes pueden buscar nuevas formas de proteger su contenido contra el scraping no autorizado.
Además, la presión regulatoria sobre las prácticas de recopilación de datos de las grandes empresas de tecnología podría aumentar a medida que los gobiernos y las organizaciones de defensa de la privacidad busquen proteger los derechos de los usuarios en la era digital.