El caso Anthropic: ¿Justicia o precio de hacer negocios con IA?

La histórica demanda de autores contra la empresa de IA Anthropic podría marcar un punto de inflexión en la batalla legal por los derechos de autor en la era de la inteligencia artificial.

Una demanda sin precedentes en la era de la IA

En un hecho que puede definir el rumbo de las relaciones entre creativos y las compañías de inteligencia artificial, la firma tecnológica Anthropic ha accedido a pagar 1.500 millones de dólares para resolver una demanda colectiva de derechos de autor. Esta acción legal fue presentada por un grupo de autores, encabezado por Andrea Bartz, Charles Graeber y Kirk Wallace Johnson, que acusaron a la empresa de utilizar copias pirateadas de sus libros para entrenar a su chatbot Claude.

El acuerdo, uno de los más altos jamás alcanzados en casos de derechos de autor, podría convertirse en el mayor precedente legal hasta la fecha en la era moderna de la inteligencia artificial.

¿Qué hay detrás del caso?

La clave del caso es la afirmación de que Anthropic habría utilizado bases de datos de libros descargados ilegalmente, como Books3 y Library Genesis, para entrenar sus modelos de lenguaje de gran escala (LLM, por sus siglas en inglés).

Según el juez William Alsup, la empresa accedió a más de 7 millones de libros pirateados con pleno conocimiento de que estaban protegidos por derechos de autor.
Solo Books3 contenía aproximadamente 200,000 libros, y el resto se extrajo de sitios como Pirated Library Mirror y LibGen.

El thriller debut de Andrea Bartz, "The Lost Night", fue solo uno de los libros encontrados en estos datasets ilícitos.

¿Una victoria para los autores?

El acuerdo, que deberá ser aprobado formalmente por un juez federal, establece que Anthropic pagará un promedio de 3,000 dólares por libro a los afectados. Esto representa un monto significativamente mayor a lo que normalmente se esperaría por daños, que según la Authors Guild podría haber sido como mínimo de 750 dólares por obra.

Mary Rasenberger, directora ejecutiva de la entidad, afirmó:

"Es un excelente resultado para autores, editores y titulares de derechos, y envía un mensaje claro a la industria de la IA: piratear obras no es gratis ni sin consecuencias".

¿Negocio de alto riesgo o estrategia calculada?

A simple vista, esta puede parecer una derrota financiera para Anthropic, pero expertos señalan que más que un fracaso, esto podría verse como parte del modelo de negocio implícito en las compañías de IA. Según Thomas Heldrup, de la Danish Rights Alliance:

"Esto encaja con el manual de muchas empresas tecnológicas: crecen primero a toda velocidad, violan normas si es necesario, y luego pagan multas que al final son pequeñas comparadas con los beneficios acumulados".

Anthropic, fundada por exmiembros de OpenAI en 2021, ha recaudado 13.000 millones de dólares en inversiones y tiene una valoración estimada en 183.000 millones de dólares. Aunque aún no genera beneficios netos, espera ingresos de hasta 5.000 millones de dólares este año.

Los libros como materia prima de la IA

Los libros no son solo historias o conocimientos archivados: para la IA, representan una enorme compilación estructurada de lenguaje humano, insumos ideales para construir modelos basados en texto. Cada novela, ensayo o libro de investigación representa millones de palabras cuidadosamente seleccionadas, expresiones de estilo, contenido argumentativo y estructura narrativa, lo que los convierte en fuentes invaluables para entrenar chatbots como Claude o ChatGPT.

Sin embargo, la práctica de extraer estos datos sin permiso plantea un fuerte dilema ético y legal:

¿Se puede considerar "justo" utilizar un trabajo creativo sin el consentimiento de su autor?
¿Cuál es la frontera entre minería de datos para fines de desarrollo y piratería digital?

La respuesta de la justicia estadounidense ahora parece inclinarse hacia la protección de los derechos de autor.

Implicaciones para Europa y más allá

Aunque el resultado del caso puede parecer alentador para los creadores de contenido en EE.UU., representa una victoria limitada para autores europeos. La mayoría de las obras afectadas no están registradas en la Oficina de Derechos de Autor de Estados Unidos, lo cual las deja fuera del alcance del fallo.

La misma Danish Rights Alliance mostró su preocupación:

"Este acuerdo no tendrá mayor efecto en autores o editores europeos, lo cual demuestra que aún existe una brecha legal significativa en la protección de derechos internacionales en la era de la IA".

La amenaza de los "datasets grises"

Un análisis independiente publicado por arXiv.org en 2023 reveló que buena parte del entrenamiento de modelos generativos como GPT-3 y Claude se apoyó en datasets de procedencia dudosa, conocidos como "datasets grises".

Estos conjuntos de datos suelen incluir contenido de redes sociales, bases de datos colaborativas, páginas web capturadas de forma masiva y, en casos como este, libros digitalizados sin autorización.

La polémica sobre el uso de textos protegidos sugiere que, aunque la tecnología avanza a pasos acelerados, la legislación aún necesita adaptarse mejor a la nueva era digital.

¿Un eventual freno al desarrollo de IA generativa?

Muchos se preguntan si estas demandas podrían obstaculizar la innovación en el campo de la inteligencia artificial. Pero, lejos de detener el desarrollo, la justicia parece estar buscando establecer parámetros éticos y legales claros.

Como lo explicó Justin Nelson, abogado de los autores:

"No se trata de frenar la innovación. Se trata de que ésta no se haga sobre los hombros de miles de creadores sin compensación."

El ecosistema legal en transformación

Este no es el único frente abierto. OpenAI, Meta y Google enfrentan procesos similares por parte de artistas, editores y músicos. El resultado del caso Anthropic podría sentar un precedente que influya directamente en la forma en que estas y otras empresas recopilan y utilizan contenido en el futuro.

De hecho, la decisión de Anthropic de destruir los archivos ilícitamente descargados puede interpretarse como un intento de evitar más controversia legal y una señal de que la industria comienza a entender los límites de lo permitido.

El verdadero costo del progreso

El desarrollo de modelos como Claude, ChatGPT o Bard se basa en un principio fundamental: exposición a datos masivos. Pero este principio, ejecutado sin consideración por los creadores, roza el extractivismo digital —una forma de apropiación tecnológica sin reciprocidad.

En este contexto, el caso Anthropic podría marcar el momento en que, por primera vez, los creadores reciben algo a cambio de las contribuciones involuntarias que han hecho al avance de estas tecnologías.

Aunque aún hay muchos asuntos por resolver —incluyendo los derechos internacionales, la regulación de modelos futuros y la forma en que los sistemas crediticios o de royalties se integran a las plataformas de IA—, este precedente establece claramente que la era de la impunidad está llegando a su fin.

La industria de la IA se enfrenta ahora a una disyuntiva ineludible: o comienza a rendir cuentas y a remunerar justamente a los creadores, o corre el riesgo de perder legitimidad social, apoyo cultural e incluso su base legal sobre la que cimenta su desarrollo.

En el futuro, entrenar un modelo de lenguaje no será una simple cuestión de scraping. Será una cuestión legal, ética y económica. Y eso cambiará todo.

Este artículo fue redactado con información de Associated Press