TLDR : La empresa Anthropic, que utilizó obras protegidas para entrenar su IA Claude, fue juzgada en San Francisco por dos cuestiones: el uso de libros legalmente adquiridos fue visto como justo, pero mantener versiones digitalizadas de libros pirateados podría infringir los derechos de autor. Esta decisión podría influir en otros casos en el sector de la IA.
La semana pasada, el juez William Alsup del tribunal federal de San Francisco emitió una decisión muy esperada en el caso entre tres autores Andrea Bartz, Charles Graeber y Kirk Wallace Johnson contra Anthropic, unicornio californiano detrás de la IA Claude. Esta orden, que se basa en el uso justo, marca un punto de inflexión en los debates sobre el uso de obras protegidas para entrenar modelos de IA.
Entre 2021 y 2023, Anthropic descargó más de 7 millones de libros pirateados de sitios como Books3, LibGen o PiLiMi. Tras darse cuenta de los riesgos legales asociados con las copias pirateadas, la empresa compró a partir de la primavera de 2024 legalmente cientos de miles de estos libros, los escaneó tras arrancar sus encuadernaciones, eliminó los encabezados y pies de página, y luego los destruyó. Conservaron estos archivos en su biblioteca interna incluso después de decidir que algunos no serían utilizados para entrenar sus modelos Claude o no lo serían en el futuro.
Las novelas de Bartz, los ensayos de Graeber y los relatos de Johnson forman parte tanto de los libros pirateados como de los comprados legalmente, a menudo de segunda mano. Ellos entablaron esta demanda colectiva contra Anthropic que utilizó sus obras sin su consentimiento ni compensación financiera por violación de derechos de autor.
Sin resolver todas las cuestiones planteadas por este caso, el juez Alsup aclaró dos puntos esenciales. Por un lado, consideró que el uso por parte de Anthropic de libros legalmente adquiridos, digitalizados e integrados en su base de entrenamiento, constituía un uso justo ("fair use") en el sentido del derecho estadounidense. El juez comparó este proceso con el de un autor o investigador que se basa en lecturas para producir un trabajo original, destacando así la dimensión transformadora del uso. Para él, la demanda de los autores "no es diferente de lo que sería si se quejaran de que la formación de los escolares para escribir bien provocaría una explosión de obras concurrentes".
Por otro lado, distinguió claramente este tratamiento lícito del hecho de conservar versiones digitalizadas. Según él, crear una biblioteca interna a partir de libros robados no puede ser excusado por el derecho a la innovación o la investigación. Esta parte del litigio se remite a un juicio previsto en diciembre, donde la responsabilidad de Anthropic podría ser comprometida por infracción caracterizada de derechos de autor.
La empresa podría entonces enfrentar una acción colectiva de otra magnitud si el juez aprueba la integración de miles de autores en el juicio. Si se certifica, Anthropic podría verse obligada a pagar a cada uno de ellos hasta 150,000 $ por obra...
Esta decisión histórica, si no se revoca en una posible apelación, podría sentar precedente e influir en otros litigios en curso en el sector de la IA.
Para entender mejor
¿Qué es el concepto de 'uso justo' en la ley estadounidense y cómo se aplica a los modelos de IA?
'Uso justo' es un principio en la ley de derechos de autor de EE.UU. que permite el uso limitado de obras protegidas, como para investigación o crítica, sin permiso. En IA, se utiliza para justificar el entrenamiento de modelos con obras digitalizadas, siempre que el uso sea transformador.
¿Cuál es la diferencia entre el uso justo de obras digitalizadas y la creación de una biblioteca digital con libros pirateados?
El uso justo permite el uso de obras digitalizadas para la innovación, siempre que se añada un valor transformador. Sin embargo, crear una biblioteca a partir de libros pirateados sigue siendo ilegal ya que viola las leyes de derechos de autor, a pesar de las intenciones de investigación o innovación.