Meta entrenó a su chatbot usando libros con copyright sacados de una web de descargas. Y todo con el visto bueno de Zuckerberg
Publicado el 10/01/2025 por Diario Tecnología Artículo original
En los últimos meses, Meta, la compañía liderada por Mark Zuckerberg, se ha visto envuelta en una controversia (bueno, en dos, si contamos con la reciente polémica sobre la moderación de contenido). Respecto al caso que nos interesa, documentos recientemente desclasificados en el caso Kadrey vs. Meta revelan que la empresa habría utilizado obras protegidas por derechos de autor...
...provenientes de Library Genesis, una plataforma conocida por la distribución no autorizada de libros, todo con el fin de entrenar con sus contenidos al modelo de lenguaje para chatbots desarrollado por Meta: LlaMa.
Para los demandantes del caso Kadrey (incluido el propio novelista Richard Kadrey y otros autores como Sarah Silverman y Ta-Nehisi Coates) la utilización de esta base de datos por parte de Meta representa una violación flagrante de sus derechos.
Pero, ¿qué es LibGen?
Library Genesis, conocida popularmente como 'LibGen', es un motor de búsqueda que facilita el acceso gratuito a libros, artículos científicos y otros contenidos protegidos por derechos de autor. Aunque su acceso ha sido bloqueado en varios países y se ha enfrentado a múltiples demandas judiciales, LibGen sigue operando mediante dominios alternativos, a imagen y semejanza de Sci-Hub o Z-Library.
Zuckerberg, el CEO en el ojo del huracán
Los documentos legales señalan que Meta no solo accedió al contenido pirateado, sino que también eliminó deliberadamente las etiquetas de derechos de autor, incluidos metadatos y símbolos de copyright, de los materiales utilizados. Esta acción habría permitido entrenar los modelos LlaMa sin alertar a usuarios o reguladores sobre la naturaleza de los datos empleados.
Pero quizá una de las revelaciones más impactantes sea que el propio Mark Zuckerberg aprobó el uso de LibGen a pesar de las preocupaciones expresadas por algunos miembros del equipo de inteligencia artificial de Meta. Sin embargo, las advertencias sobre cómo esta estrategia podría socavar la posición negociadora de Meta ante reguladores no disuadieron al CEO de dar luz verde al proyecto.
Además, Meta habría recurrido al uso de torrents para descargar los contenidos de LibGen. Este método, que implica compartir archivos a través de redes descentralizadas, convirtió a la compañía en un nodo más de distribución de contenido protegido, exacerbando las acusaciones de violación de derechos de autor.
La defensa de Meta: ¿'uso justo' o abuso de la ley?
Meta ha defendido sus prácticas argumentando que el uso de los materiales se encuentra amparado bajo el principio de 'uso justo' ('fair use') contemplado en la legislación estadounidense. Sin embargo, este argumento ha sido cuestionado, ya que Meta no solo utilizó las obras sin permiso, sino que también implementó medidas para encubrir su origen ilegal.
Casos previos ofrecen un panorama mixto sobre la efectividad de esta defensa. En 2023, un tribunal desestimó demandas similares contra Meta, argumentando que los demandantes no pudieron demostrar daños claros. Sin embargo, en esta ocasión, la magnitud y la intención detrás de las acciones de Meta podrían inclinar la balanza en contra de la empresa.
Una práctica común en la industria
Si bien Meta está en el ojo del huracán, no es la única empresa tecnológica acusada de emplear contenido protegido sin autorización para entrenar sus modelos de IA: OpenAI, Google y otras compañías han enfrentado demandas similares. En algunos casos, estas empresas han comenzado a negociar acuerdos con editoriales y creadores para licenciar sus contenidos, marcando un posible cambio en las dinámicas de esta industria.
El problema, no obstante, radica en la voraz necesidad de datos para alimentar y mejorar los modelos de inteligencia artificial. Este apetito insaciable ha llevado a prácticas cuestionables, desde el uso de libros pirateados hasta la extracción masiva de contenido de plataformas públicas como YouTube e incluso fotografías privadas publicadas en redes sociales.
Imagen | Marcos Merino mediante IA
utm_campaign=10_Jan_2025"> Marcos Merino .