The New York Times denuncia el "descarado robo de propiedad intelectual" de la IA: "Escupe hechos porque copia ilegalmente"

6 de junio de 2026, 0:30:43 Diario Tecnología 13 min lectura

En un momento de rápida evolución tecnológica, donde la inteligencia artificial (IA) redefine constantemente los límites de lo posible, emerge una batalla legal y ética de proporciones monumentales. El prestigioso periódico The New York Times (NYT), un bastión del periodismo de calidad con casi dos siglos de historia, ha interpuesto una demanda histórica contra OpenAI y Microsoft, acusándolos de un "robo descarado" de su propiedad intelectual. La esencia de su argumento es clara y contundente: los modelos de lenguaje grande (LLMs) de estas compañías están entrenados con millones de artículos del NYT sin autorización, permitiéndoles "escupir hechos porque copian ilegalmente" la base de su contenido. Esta confrontación no es meramente una disputa comercial; es un punto de inflexión que podría redefinir el futuro del contenido digital, la creatividad humana y la propia economía del conocimiento. Nos adentramos en los pormenores de esta trascendental denuncia, sus implicaciones y el camino incierto que se abre para la industria.

La demanda histórica de The New York Times: Un grito de alarma

La demanda, presentada en diciembre de 2023 ante el Tribunal de Distrito de Manhattan, es un documento extenso y meticuloso que expone cómo la IA generativa se ha beneficiado indebidamente del vasto archivo de contenido del NYT. El periódico sostiene que OpenAI, la empresa detrás de ChatGPT, y Microsoft, su principal inversor y socio tecnológico, han utilizado millones de sus artículos publicados para entrenar sus modelos de IA. Esta práctica, según el NYT, no solo constituye una infracción masiva de derechos de autor, sino que también amenaza la capacidad del periódico para producir periodismo independiente y de alta calidad.

El argumento central es que los LLMs, como ChatGPT, son capaces de generar resultados que "parasitan" el trabajo original del NYT. En algunos casos, los modelos reproducen secciones enteras de artículos del NYT palabra por palabra, con apenas alteraciones, o generan resúmenes y respuestas que compiten directamente con el contenido del periódico, privándolo de tráfico web y, en última instancia, de ingresos por publicidad y suscripciones. La demanda detalla cómo los usuarios pueden obtener contenido del NYT de forma gratuita a través de estas herramientas de IA, eludiendo los muros de pago y el modelo de negocio que ha sostenido el periodismo de calidad durante años. Aquí puedes leer la noticia original de la demanda en el NYT (puede requerir suscripción).

La acusación de "escupir hechos porque copia ilegalmente" es particularmente incisiva. Sugiere que la IA no está "aprendiendo" en un sentido humano, sino más bien memorizando y regurgitando información que ha sido obtenida ilícitamente. Esto plantea serias dudas sobre la originalidad y el valor añadido de la IA generativa cuando su base son obras protegidas. Para un medio como The New York Times, que invierte enormes recursos en la verificación de hechos, la investigación profunda y la redacción experta, ver su contenido diseminado y potencialmente distorsionado por máquinas sin atribución ni compensación es, comprensiblemente, un golpe existencial. Mi opinión personal es que esta frase encapsula de forma muy precisa la frustración que sienten muchos creadores: la sensación de que su trabajo se está utilizando como materia prima barata, sin el debido reconocimiento ni la justa recompensa.

El perjuicio económico y reputacional para el periodismo

El NYT no solo busca una compensación monetaria por los daños pasados, que ascienden a miles de millones de dólares, sino también la eliminación de todo el contenido protegido por derechos de autor del NYT de los conjuntos de datos de entrenamiento de los modelos de IA. El periódico argumenta que la práctica de OpenAI y Microsoft socava su capacidad de invertir en periodismo y amenaza su futuro como fuente fiable de información. ¿Quién invertirá en reportajes de investigación complejos y costosos si los frutos de ese trabajo pueden ser absorbidos y reempaquetados por una máquina sin coste alguno?

Además, existe una preocupación latente sobre la calidad y la veracidad de la información. La demanda del NYT incluye ejemplos donde los chatbots de IA "alucinan" o atribuyen incorrectamente información al periódico, dañando potencialmente su reputación. Este es un punto crítico: si la IA se entrena con contenido de alta calidad pero luego lo distorsiona o lo presenta fuera de contexto, el daño no solo recae sobre el creador original, sino también sobre el público que consume esa información alterada. Puedes profundizar sobre el debate del 'fair use' y las demandas de IA aquí.

La propiedad intelectual en la encrucijada de la IA

Esta demanda del NYT no es un incidente aislado; es parte de un creciente coro de voces de creadores y propietarios de contenido que cuestionan la legalidad y la ética del entrenamiento de modelos de IA con datos de internet. La cuestión central gira en torno al "uso justo" (fair use) en la legislación de derechos de autor.

El debate sobre el "uso justo"

Los desarrolladores de IA a menudo invocan la doctrina del "uso justo" o "uso transformador" para justificar el uso de grandes cantidades de datos para el entrenamiento de sus modelos. Argumentan que sus modelos no copian obras de manera literal, sino que "aprenden" patrones, estilos y relaciones semánticas del texto, transformando esta información en la capacidad de generar contenido nuevo. Comparan el proceso con un estudiante humano que lee miles de libros para aprender y luego escribe su propio ensayo. Según esta perspectiva, el entrenamiento de la IA es un uso transformador que no compite directamente con la obra original y, por lo tanto, debería estar permitido.

Sin embargo, los demandantes, incluido el NYT, refutan esta comparación. Sostienen que el "aprendizaje" de la IA es fundamentalmente diferente al humano. Mientras un humano procesa, sintetiza y crea con una conciencia y una perspectiva únicas, un LLM funciona más como un sofisticado sistema de predicción de texto que, en muchos casos, es capaz de producir derivados directos o casi idénticos del material de origen. Cuando un modelo de IA puede generar un resumen de un artículo o incluso un artículo completo que se asemeja mucho al original, sin atribución y fuera del ecosistema del editor, la línea del "uso transformador" se vuelve peligrosamente borrosa. En mi opinión, la analogía del estudiante humano es falaz; un estudiante no genera un artículo palabra por palabra ni un resumen idéntico que pueda pasar por el original, y tampoco tiene la capacidad de distribuir esas "copias" a millones de usuarios al instante, socavando el modelo de negocio del autor.

El desafío de la atribución y la compensación

Más allá de la legalidad, el aspecto ético de la atribución y la compensación es crucial. Durante siglos, el periodismo y la creación de contenido han dependido de un sistema donde la creación original es valorada y monetizada. La irrupción de la IA amenaza con desmantelar este sistema sin ofrecer un reemplazo viable. Si los modelos de IA pueden generar contenido derivado del trabajo periodístico y los usuarios no necesitan visitar el sitio original, los ingresos por publicidad y suscripciones se desplomarán. Esto, a su vez, reducirá drásticamente la financiación para el periodismo de investigación, los reportajes sobre el terreno y la edición de alta calidad, elementos esenciales para una sociedad informada y democrática.

Es un ciclo vicioso: la IA se nutre de la creatividad humana, pero al hacerlo sin compensación, podría agotar la propia fuente de la que se alimenta. La industria creativa, en general, se enfrenta a una crisis similar. Artistas visuales, músicos y escritores también han presentado demandas, argumentando que sus obras han sido utilizadas sin permiso para entrenar modelos de IA generativa que luego compiten con su propio trabajo. Conoce más sobre la demanda colectiva de artistas contra generadores de IA.

Precedentes y el futuro de la regulación

La demanda del NYT no es la primera, ni será la última, en esta compleja saga legal. Ya existen otros casos significativos que sientan precedentes o abren nuevas vías de discusión:

Getty Images contra Stability AI: La agencia de fotografía Getty Images demandó a Stability AI, creadores del modelo de texto a imagen Stable Diffusion, por el uso no autorizado de millones de sus imágenes protegidas por derechos de autor para entrenar su IA. Getty alegó que el modelo generaba imágenes que contenían marcas de agua de Getty, así como distorsiones de los logotipos y las firmas de sus fotógrafos.
Demanda colectiva de autores: Autores como Sarah Silverman y Christopher Golden han presentado demandas colectivas contra OpenAI y Meta, alegando que sus libros se utilizaron para entrenar LLMs sin permiso, y que los modelos pueden generar resúmenes precisos de sus obras, lo que demuestra un "robo" de su contenido.
La Authors Guild: Esta organización de autores ha sido una voz importante en la defensa de los derechos de los escritores frente a la IA, buscando soluciones que permitan la compensación justa y la atribución para el uso de obras literarias en el entrenamiento de modelos de IA.

Estos casos, junto con el del NYT, subrayan la necesidad urgente de actualizar las leyes de derechos de autor para la era digital y de la IA. La legislación actual, concebida en un mundo sin algoritmos capaces de generar texto, imágenes o música a partir de vastos conjuntos de datos, se ve estirada hasta el límite de su interpretación.

Los gobiernos y los organismos reguladores de todo el mundo están empezando a tomar nota. La Unión Europea, con su Ley de IA, está avanzando hacia un marco regulatorio integral que abordará, entre otras cosas, la transparencia en el uso de datos para el entrenamiento de IA y la necesidad de respetar los derechos de autor. En Estados Unidos, la Oficina de Derechos de Autor (U.S. Copyright Office) también está explorando cómo la ley existente se aplica a las obras generadas por IA y al uso de obras protegidas por derechos de autor en el entrenamiento de IA. Consulta el aviso de investigación de la Oficina de Derechos de Autor de EE. UU. sobre IA y Copyright.

Hacia un futuro de coexistencia: soluciones y desafíos

La batalla legal del NYT contra OpenAI y Microsoft nos obliga a considerar no solo los problemas, sino también las posibles soluciones para una coexistencia justa entre la creatividad humana y la inteligencia artificial.

Licencias y acuerdos de compensación

Una de las vías más prometedoras es el desarrollo de modelos de licencias justas. En lugar de que las empresas de IA utilicen contenido sin permiso, podrían negociar acuerdos de licencia con los editores, autores y artistas. Esto no solo compensaría a los creadores por el valor que sus obras aportan al entrenamiento de la IA, sino que también establecería un marco legal claro para el uso de datos. Algunos medios de comunicación, como Associated Press, ya han firmado acuerdos de licencia con empresas de IA. Esto demuestra que un modelo de colaboración es posible, donde la IA puede beneficiarse del acceso a datos de alta calidad, y los creadores son justamente recompensados.

Transparencia y trazabilidad

Otra solución clave radica en la transparencia. Los modelos de IA deberían ser más transparentes sobre los datos utilizados para su entrenamiento, permitiendo a los creadores identificar si su contenido ha sido utilizado y, si es así, cómo. La trazabilidad del contenido generado por IA también es importante, para que los usuarios puedan saber cuándo una respuesta o un artículo proviene de una fuente original y cuándo es una síntesis de IA. Las tecnologías como las marcas de agua digitales o los metadatos de procedencia podrían desempeñar un papel fundamental aquí.

Regulación y ética en el desarrollo de IA

Finalmente, la intervención regulatoria es inevitable. La legislación debe ponerse al día con el rápido avance tecnológico para proteger los derechos de los creadores y garantizar un mercado justo. Esto podría incluir la definición de lo que constituye un "uso justo" en el contexto de la IA, el establecimiento de directrices para la atribución y la compensación, y la imposición de responsabilidades a los desarrolladores de IA por el uso indebido de datos protegidos. La comunidad de IA también tiene un papel ético que desempeñar, fomentando prácticas de desarrollo responsable que respeten los derechos de autor y la integridad del contenido. Explora cómo diferentes regiones del mundo están abordando la regulación de la IA.

En mi humilde opinión, la clave para el futuro reside en encontrar un equilibrio. La IA tiene el potencial de ser una herramienta increíblemente poderosa para la creatividad y el acceso al conocimiento, pero no debe construirse sobre los cimientos del trabajo ajeno sin permiso ni compensación. Es una oportunidad para que la tecnología y la creación de contenido se unan en una simbiosis mutuamente beneficiosa, en lugar de una relación parasitaria.

Conclusión: El legado de la verdad en la era algorítmica

La demanda de The New York Times contra OpenAI y Microsoft es más que una simple disputa legal; es una batalla por la integridad del periodismo, la supervivencia de la propiedad intelectual en la era digital y el valor del trabajo humano. El resultado de este litigio sentará un precedente significativo que resonará en toda la industria tecnológica y creativa, influenciando cómo se desarrollará, entrenará y utilizará la IA en el futuro.

Mientras la IA continúa evolucionando a un ritmo vertiginoso, la pregunta fundamental que subyace a esta demanda es: ¿Cómo podemos garantizar que el progreso tecnológico no se logre a expensas de la verdad, la creatividad y los derechos de aquellos que las producen? El NYT, al plantarse firmemente contra lo que considera un "robo descarado", no solo defiende sus propios intereses, sino que también eleva una voz en nombre de todos los creadores que ven su trabajo como la base sobre la que se asienta el conocimiento colectivo. El desenlace de esta historia será crucial para definir el legado de la verdad en nuestra naciente era algorítmica.