"Los rastreadores de IA están matando Internet". Los bots ponen en peligro hasta a la Wikipedia
Publicado el 03/04/2025 por Diario Tecnología Artículo original
Internet está bajo ataque. No por ciberdelincuentes, sino por una avalancha de bots de IA que consumen ancho de banda a un ritmo sin precedentes. El objetivo de estos bots es el de rastrear y recolectar contenido masivo para alimentar modelos de lenguaje y generadores de imágenes. Pero el precio lo están pagando, entre otros, pilares del conocimiento abierto como Wikimedia, así como miles de desarrolladores de software libre.
Wikimedia: conocimiento libre, infraestructura al límite
Desde principios de 2024, la Fundación Wikimedia ha registrado un aumento del 50% en el consumo de su ancho de banda, (especialmente en su repositorio multimedia Wikimedia Commons). En algunos momentos, como tras la muerte del expresidente de EE.UU. Jimmy Carter, este exceso de tráfico derivó en la saturación de conexiones y tiempos de carga lentos para los lectores.
Por desgracia, no se trata de una explosión de interés por parte de sus usuarios humanos: la mayoría del tráfico proviene de bots automatizados —muchos sin identificar— que extraen imágenes, textos y vídeos para entrenar modelos de IA.
En términos prácticos, esto significa que un número creciente de conexiones a sus servidores centrales (el 65%, a estas alturas) están siendo ocupadas por rastreadores que ignoran los límites establecidos, como el archivo 'robots.txt', que tradicionalmente ha servido para regular los accesos automatizados.
Wikimedia se basa en un modelo de “conocimiento como servicio”. Su contenido es gratuito y libremente reutilizable, lo que ha sido clave para el desarrollo de buscadores, asistentes de voz y ahora modelos de IA. Pero, como la propia fundación ha declarado:
"El contenido es gratis, pero nuestra infraestructura no lo es".
Una amenaza común para los desarrolladores
La situación es similar —o incluso más crítica— en el mundo de los pequeños proyectos de software libre, mantenidos por comunidades o desarrolladores individuales, están viendo cómo sus recursos se agotan por el tráfico generado por bots de IA, lo que genera que se disparen los gastos, o bien que los proyectos queden temporalmente offline.
Gergely Orosz, desarrollador y autor de 'The Software Engineer's Guidebook', vio cómo el uso de datos se multiplicaba por siete en uno de sus proyectos en cuestión de semanas, forzándolo a pagar penalizaciones por el exceso de tráfico.
El desarrollador Xe Iaso, por su parte, construyó Anubis, una herramienta que actúa como proxy inverso, obligando a los visitantes de una web a resolver una 'prueba computacional' antes de acceder al contenido. Solo los humanos pueden pasarla (y así acceder al contenido); los bots, no. Él mismo lamenta su limitada utilidad:
"Es inútil intentar bloquear bots de IA. Mienten, cambian de identidad, usan IPs residenciales [esto es, no vinculadas a centros de datos] y vuelven una y otra vez".
Sin embargo, esta herramienta se ha convertido en viral entre los miembros de la comunidad de código abierto y ha inspirado a muchos otros a implementar soluciones similares.
Tácticas agresivas
Más allá de las medidas defensivas, algunos desarrolladores han optado por métodos más agresivos. Herramientas diseñadas por la comunidad (como Nepenthes) o por grandes compañías como Cloudflare (el caso de AI Labyrinth), atrapan a los bots en 'tarpits', o laberintos de contenido falso o irrelevante (irónicamente también generado por IA), provocando que, con cada intento de scraping, desperdicien recursos en lugar de obtener información relevante.
La paradoja de la web abierta
En el fondo de esta crisis hay una contradicción fundamental: la misma apertura que permitió el auge de la IA está poniendo en riesgo la viabilidad de los espacios que la hicieron posible. Las empresas que desarrollan IA se benefician del contenido abierto, pero no contribuyen al mantenimiento de su infraestructura. Esta externalización de costos amenaza la sostenibilidad del ecosistema abierto.
Hacia una solución compartida
El consenso entre las plataformas afectadas es claro: se necesitan nuevas normas de convivencia, así como acuerdos entre empresas de IA y proveedores de contenido abierto que incluyan:
- Financiación compartida de infraestructura.
- APIs optimizadas y sostenibles.
- Respeto estricto por los estándares como 'robots.txt'.
- Reconocimiento y atribución del contenido usado.
Si no se alcanzan estos consensos, el mayor riesgo no es que la IA se quede sin datos, sino que los espacios abiertos que la nutren terminen cerrando sus puertas por agotamiento.
Vía | Wikimedia
Imagen | Marcos Merino mediante IA
utm_campaign=03_Apr_2025"> Marcos Merino .