Anthropic entrenó su IA con millones de libros con copyright. A un juez eso le ha parecido correctísimo (con un gran asterisco)
Publicado el 25/06/2025 por Diario Tecnología Artículo original
Anthropic acaba de lograr una victoria legal muy importante en esa batalla legal que el mundo de la IA mantiene con el copyright y los derechos de autor desde hace años. La sentencia, favorable a Anthropic, puede sentar un gran precedente para el resto de casos en los que las empresas de IA han sido demandadas por entrenar sus modelos con obras con copyright. Pero ojo, porque no ha sido una victoria total.
Antropic gana. En la demanda de tres autores contra Anthropic se acusó a la empresa de descargar gratuitamente millones de libros con copyright, además de comprar algunos de ellos para escanearlos y digitalizarlos. El objetivo: entrenar sus modelos de IA. El juez William Alsup ha dejado claro en su sentencia que "el uso para el entrenamiento fue un uso justo". Las empresas que desarrollan modelos de IA siempre se han escudado en ese concepto del uso justo para argumentar cómo habían entrenado sus modelos con todo tipo de obras, incluidas aquellas protegidas por derechos de autor.
Uso justo. Este criterio legal mantiene que se permite un uso limitado de material protegido sin necesitar el permiso del dueño de esos derechos. En las leyes del copyright, una de las formas que tienen los jueces de determinar si ese tipo de actividad es un uso justo es la de examinar si ese uso fue "transformador". O lo que es lo mismo, si a partir de esas obras se ha creado algo nuevo. Para Alsup "la tecnología en cuestión es una de las más transformadoras que muchos de nosotros veremos en nuestras vidas".
Una victoria con un gran asterisco. Aunque el juez indicó que ese proceso de entrenamiento era un uso justo, también determinó que los autores podrían llevar a juicio a Anthropic por piratear sus obras. La empresa argumentó que eso estaba justificado porque era "al menos razonablemente necesario para entrenar LLMs". Para Alsup la cuestión es precisamente que aunque acabaron comprando algunos de ellos, construyó una biblioteca enorme por la que no pagó:
"Anthropic descargó más de siete millones de copias piratas de libros, no pagó nada y conservó estas copias piratas en su biblioteca incluso después de decidir que no las utilizaría para entrenar a su IA (en absoluto o nunca más). Los autores sostienen que Anthropic debería haber pagado por estas copias piratas de la biblioteca. Esta sentencia coincide en ello".
El precedente de Thomson-Reuters. Hace unos meses Thomson Reuters ganó una demanda de 2020 contra una startup de IA llamada Ross Intelligence. Según ellos, la empresa había reproducido material de su división de investigación legal, llamada Westlaw. El juez rechazó los argumentos de la defensa y declaró que el argumento de uso justo no se podía aplicar en ese caso. La sentencia contra Anthropic va justo en la dirección opuesta y bendice ese tipo de uso... mientras las empresas compren las obras con las que entrenan a sus modelos. La empresa de IA, por cierto, ya había logrado una pequeña victoria legal en un caso previo contra Universal Music.
Anthropic descargó libros a destajo. En el juicio se desveló cómo el cofundador de Anthropic, Ben Mann, descargó en invierno de 2021 conjuntos de datos como el llamado Books3 o LibGen (Library Genesis) que no son más que gigantescas recopilaciones de libros, muchos de los cuales están protegidos por los derechos de autor.
Meta está en las mismas. Todas las empresas que desarrollan modelos de IA los han entrenado con todo tipo de datos, incluidas obras protegidas por derechos de autor, y todas se enfrentan por tanto a una situación similar. Meta, por ejemplo, descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA. Eso hace que la empresa de Mark Zuckerberg pueda acabar sufriendo un destino similar al de Anthropic, que tiene ante sí un nuevo proceso judicial muy peligroso para sus finanzas.
Una multa potencial de miles de millones de dólares. Como indican en Wired, la multa mínima por este tipo de violación del copyright es de 750 dólares por libro. Alsup indicó que la biblioteca descargada ilegalmente de Anthropic consta de al menos siete millones de libros, y eso significa que la compañía se enfrenta a una multa potencialmente enorme. De momento no hay fecha para ese nuevo juicio.
La interminable batalla de la IA y el copyright. Este es el último episodio de un culebrón del que sin duda veremos muchos más capítulos. Empresas como Google, OpenAI o Perplexity han sido igual de voraces a la hora de entrenar sus modelos y han arrasado con datos públicos (y no tan públicos) en internet. Las demandas por violación de copyright se van acumulando, y casos como el de Anthropic pueden sentar un inquietante predecente para todas ellas si no compraron los libros que usaron para entrenar sus modelos.
Imagen | Emil Widlund
En Xataka | 5.000 "tokens" de mi blog están siendo usados para entrenar una IA. No he dado mi permiso
utm_campaign=25_Jun_2025"> Javier Pastor .