22/05/2024

OpenAI se enreda en la propiedad intelectual

Esta vez, la cara visible de la noticia es el mismísimo The New York Times, que  ha demandado a OpenAI y Microsoft. Hay mucha casuística de fondo, por tratarse de un conflicto potencialmente explosivo entre desarrolladores de herramientas de inteligencia artificial generativa, por un lado y tenedores de propiedad intelectual por otro. Y en cada campo conviven miembros con argumentos y posiciones dispares.  Volviendo a la noticia: salió a la luz en diciembre por decisión de la cabecera,  a la que se han sumado más periódicos estadounidenses y se han abstenido otros por diferencias de conveniencia económica. Su perspectiva va mucho más lejos de un litigio convencional acerca de derechos de autor.

Pese a tratarse de una tecnología cuya materia prima son los textos e imágenes, la música y la expresión vocal, el choque no sorprende; más bien sorprende la rara complacencia de muchos creadores ante el aluvión de la AIGen: para unos es una oportunidad, para otros otra fuente de piratería. Unos cuantos novelistas, artistas y periodistas (los menos) han iniciado acciones judiciales por (presunta) infracción de sus derechos de propiedad intelectual. Sus trabajos o los de autores con representación legal, están siendo utilizados para el entrenamiento de grandes modelos de lenguaje (LLM) y este es sólo el principio.

La agencia Getty Images defiende contra Stability AI la inviolabilidad de su gigantesco archivo de fotos, mientras intermediarios del mercado musical – entre ellos Sony – acusan a la joven Anthropic de apropiación indebida de letras de canciones de su catálogo, con la excusa de alimentar el conocimiento de esos modelos para perfeccionar las respuestas de la AIGen. Otros, como la agencia de prensa AP, han accedido a que sus archivos sean usados con esa finalidad a cambio de honorarios no revelados. Por su parte, el grupo alemán Axel Springer – propietario de Die Welt, entre otros medios – ha  optado por negociar un acuerdo con OpenAI, que por supuesto no es gratuito.

Este convulso escenario da un relieve propio a la denuncia de The New York Times. Según el denunciante, la otra parte se ha cerrado en banda a negociar los términos de un acuerdo que hiciera posible proteger sus activos, por lo que no ha tenido otra opción que acudir a los tribunales. No deja de ser otra manera de obtener una recompensa económica.

Bien mirada, esta escandalera sería un eco de aquellas controversias en las que la justicia de Estados Unidos dictaminó hace dos décadas que había “uso justo” por parte de Google y otros buscadores cuando indexaban contenidos protegidos, siempre  que la finalidad fuese crear un “nuevo servicio transformativo”. Lo que implicaba que los fragmentos cortos de texto y las miniaturas de imágenes expuestas durante las búsquedas, no eran sustitutos del original, de manera que no era relevante el perjuicio que pudieran causar a los titulares de la propiedad intelectual.

La diferencia que subrayan los denunciantes actuales es que el uso de esos contenidos para entrenar la IA son susceptibles de violar la IP. La justicia aún no se ha pronunciado, por lo que está abierto a medias el  melón de los acuerdos extrajudiciales como instrumento para evitar litigios y, en tal caso, dar legitimidad permanente a esas prácticas. Las compañías de IA estarían dispuestas a transigir, conscientes de que es preferible evitar que sus modelos de negocio sean escudriñados por unos jurados no versados en tan proceloso asunto.

La acusación que origina el lío es transparente. The New York Times ha demandado  a OpenAI y Microsoft por haber utilizado sin su permiso una gran cantidad de artículos escritos por sus periodistas y publicados en sus páginas offline y online. Genéricamente, la raíz del asunto consiste en que las herramientas de IA generativa absorben tráfico que de otra forma iría a los medios de comunicación: menos visitas significan menos capacidad de servir publicidad y de llegar a posibles suscriptores.

La presentación por Google de AI Overviews, en su reciente conferencia I/0 y que ya está disponible en Estados Unidos, ha despertado preocupación en los creadores de contenidos por su potencial para atrapar tráfico que sólo beneficiaría a Google y no a los creadores. No es el mismo caso, pero apunta a consecuencias parecidas.

En general, OpenAI y otras de su cuerda sostienen que han entrenado sus LLM siguiendo la doctrina de frair use, un criterio de jurisprudencia anglosajona que permite el uso limitado de material protegido por copyright, sin autorización expresa del autor y sólo para ciertos usos como el académico o el informativo. Este es el concepto que se maneja para que puedan mostrarse en los resultados de búsquedas en Google: un titular, un pequeño extracto de texto o una imagen en miniatura, no más. Aunque el caso actual es diferente, no sustituiría al original y, por otra parte, los buscadores redirigen el  tráfico a los medios, extremo que The New York Times niega.

Una respuesta de ChatGPT puede contener toda la información que el usuario necesite con lo que no tendrá motivos para visitar la página original. A esto se suma el hecho de que el chatbot de Open AI ofrece fragmentos de texto literales de algunos artículos, según The New York Times. Por su lado, el argumento maestro de la startup fundada por San Altman es que cualquier editor de noticias está en condiciones de bloquear el rastreo de sus contenidos si no quiere que sirvan para entrenar los LLM con sus artículos. Algunos de ellos, como el propio periódico neoyorquino, ya lo han hecho, lo que no significa que sea una solución satisfactoria desde ningún punto de vista.

Con el paso de los meses, la acción legal ha ido sumando demandantes cuyos objetivos tiran en la misma dirección. Ahora mismo, cuenta con el apoyo de una coalición de ocho medios, todos propiedad del fondo Alde Global Capital, entre los que se cuentan el Chicago Tribune y el New York Daily News. Estos medios ponen el acento en el uso que ha hecho OpenAI de la base de datos C4, de Common Crawl, que rastrea Internet para hacer una copia de todo el contenido alojado. La coalición ha señalado que al menos 124 millones de tokens se han extraído de sus artículos publicados para enseñar debidamente a GPT, aunque sea sólo una fracción de los 150.000 millones de tokens que contiene C4.

La demanda no olvida señalar que Microsoft, con su Copilot, basado en el modelo GPT, junto con OpenAI, han entrenado deliberadamente sus sistemas para eliminar toda traza de propiedad intelectual. No aparece el nombre de los autores ni las marcas de copyright o la palabra “exclusiva” cuando se trata de una información de este carácter. Y, por supuesto, señalan el consabido problema de las alucinaciones, al afirmar  que los modelos a veces atribuyen a alguna de las cabeceras alguna información de la que no se han ocupado.

OpenAI tiene una postura tan clara como la de los denunciantes. Tras la demanda de The New York Times, la compañía se declaró sorprendida [como si no fuera previsible] porque, según su perspectiva, la negociación con la empresa editora avanzaba a buen ritmo. Destaca asimismo que alguno de los textos que ChatGPT ha regurgitado según las instrucciones de The New York Times han sido extraídos de artículos de años atrás pero que, por extraños motivos, han proliferado en sitios web de terceros.

Esto podría ser espinoso si se demostrara que estos terceros incurrieron en un delito contra la propiedad intelectual, tan común en Internet [muchas paginas tienen automatizada la copia de contenidos de medios más grandes]. Para culminar, los abogados de OpenAI acusan al periódico de manipular intencionadamente los prompts para que el sistema devuelva textos de sus artículos, cosa de difícil demostración y que el Times niega categóricamente.

En paralelo, lo que ha hecho OpenAI es llegar a acuerdos con medios de comunicación para que licencien sus contenidos para entrenar sus propios modelos, no para hacerlos públicos. Con el grupo Springer, con Le Monde y con el español Prisa. Una pieza fundamental para los demandados ha sido el consentimiento contractual del Financial Times, propiedad del grupo japonés Nikkei. Otros, como News Corp, de la familia Murdoch y dueña del Wall Street Journal, estarían negociando con calma quizás para que suba el precio Una ausencia enigmática es, por el momento, el Washington Post, cuyo propietario a título personal es Jeff Bezos, fundador y primer accionista de Amazon.

Las condiciones de los acuerdos alcanzados no han trascendido y las dos partes han sido como poco ambiguas a la hora de comentarlos. Es natural que OpenAI se extendiera en un punto crucial para ella: la utilidad de los materiales para entrenar algoritmos. Sólo el firmado con el Financial Times especifica que los artículos del diario asalmonado servirán para que los modelos de OpenAI generan textos, imágenes y un código que los haga indistinguible de las creaciones humanas. Amén de permitir a ChatGPT que responda preguntas de los usuarios con resúmenes cortos de textos publicados, acompañados de enlaces al contenido original.

Aunque se ha mantenido discreta acerca de un contencioso del que es parte demandada, Microsoft ha aprovechado la ocasión para extender el acuerdo que ya tenía con Axel Springer en las áreas de publicidad, inteligencia artificial, contenidos y servicios en la nube. La compañía germana adoptará la tecnología para servir anuncios online de Microsoft, migrará su solución de SAP a Azure y al mismo tiempo ambas están planificando pilotos para usar chats con IA y agregar contenidos al portal Start-MSM. No se habla expresamente de entrenamiento de modelos, pero esa es la orientación del acuerdo, separado del firmado con OpenAI.

El caso de Axel Springer puede considerarse como paradigma. Ha sido la primera editorial en llegar a acuerdos con OpenAI y es un grupo mediático en varios idiomas, con unas publicaciones generalistas y otras especializadas. Tiene munición sobrada para entrenar el modelo GPT y la compañía espera obtener decenas de millones de euros gracias a la alianza con OpenAI, poco más que calderilla para una compañía que en 2023 facturó 3.930 millones de euros. No parecen ser acuerdos muy lucrativos para los medios de comunicación y podrían serlo cada vez menos los siguientes que firmen, porque OpenAI necesitará cada vez menos fuentes de entrenamiento de sus modelos.

Dicho sea de paso, también Google ha llegado a acuerdos. Por ejemplo, con News Corp. Que recibirá entre 5 y 6 millones de dólares al año a cambio del uso de sus contenidos “para el desarrollo de productos de inteligencia artificial”. En este caso, se trata de la prolongación de un acuerdo de largo recorrido entre ambas empresas. Lo que se puede interpretar como que la entrada en juego de The New York Times puede abrir una fisura entre medios de comunicación, que divida entre los que pacten y los que emprendan acciones judiciales.

Otro de los reclamos del caudaloso periódico neoyorquino es que las herramientas de OpenAI y Microsoft desarrolladas parcialmente con su contenido, han impulsado su valoración, lo que no es precisamente tendencia entre los medios de comunicación. El Times ha obtenido resultados positivos en el pasado trimestre, con un 5,9% de aumento de su facturación [594 millones de dólares] y un incremento del 13,2% en sus suscripciones, que ya aportan 293 millones de dólares. Pero, la caída de ventas de las ediciones en papel, junto con un descenso de la publicidad en este soporte – la más rentable, con diferencia – inyectan presión a su estado financiero. Es un caso excepcional: la mayoría de los medios estadounidenses arrastran problemas económicos desde hace años.

O sea que la perspectiva no es fácil para este sector. En su reciente conferencia Google I/O, el gigante de los buscadores ha mostrado su idea de cómo serían las búsquedas potenciadas por IA. El chatbot daría sus respuestas en la página de resultados de Google, que también incorporaría las fuentes de donde ha extraído la información, además de otros enlaces. Para hacerse una idea: podría ser algo semejante a los fragmentos de información que aparecen cuando se busca una ciudad o un personaje histórico. En la parte derecha de la pantalla sale un breve texto de Wikipedia con el enlace a esta web, de lo que infiere que este proyecto recibe a cambio una contribución económica de Google, detraída de sus ingresos publicitarios.

Se habla aquí de Google porque observa con mucha atención el conflicto iniciado por The New York Times. En principio, se diría que no representa un cambio de grandes proporciones para el contexto en que se mueve Google. Sin embargo, lo que ha dado en llamarse “efecto clic cero” podría tener implicaciones de calado para los medios, puesto que una parte muy importante de su tráfico proviene de Google.

Además de la demanda del Times, los modelos de AIGen se enfrentarán a otras amenazas. Varios autores de best-sellers – entre ellos Georg R.R. Martin y John Grisham – han demandado a OpenAI por infracción de su propiedad intelectual. Se les han sumado once escritores de no-ficción, que también la acusan – junto a su padrino de Redmond – de apropiarse de sus creaciones sin consentimiento para entrenar sus algoritmos. Mientras que, a Meta, otro grupo de autores le ha plantado una demanda por uso indebido de sus trabajos para entrenar al modelo Llama.

En suma, del resultado de estas escaramuzas, sobre todo de la más prominente, la demanda del Times, puede depender el uso futuro que las nuevas plataformas basadas en IA hagan de los contenidos de Internet. Está por ver, de todos modos, si el pleito se ha iniciado para reabrir la jurisprudencia sobre el fair use o como táctica agresiva par arrancar a OpenAI un acuerdo ventajoso.


Contacto Suscríbete RSS


Sobre el autor. Copyright © 2024 El dominio norbertogallego.com es propiedad y está administrado por Diandro SL. B85905537. Creative Commons