Como casi todas las empresas de tecnología que existen, Adobe se ha centrado en gran medida en la IA en los últimos años. La empresa de software ha lanzado varios servicios de inteligencia artificial diferentes desde 2023, incluido Firefly, su conjunto de generación de medios impulsado por inteligencia artificial. Ahora, sin embargo, la adopción total de la tecnología por parte de la empresa puede haber generado problemas, ya que una nueva demanda afirma que la empresa utilizó software pirateado para entrenar uno de sus modelos de IA.
Una propuesta de demanda colectiva presentada en nombre de Elizabeth Lyon, una autora de Oregón, alega que Adobe utilizó copias pirateadas de numerosos libros, incluido el suyo, para entrenar el programa SlimLM de la empresa.
Adobe describe SlimLM como un pequeño conjunto de modelos de lenguaje que “puede optimizarse para tareas de soporte de documentos en dispositivos móviles”. Dice que SlimLM fue entrenado previamente en SlimPajama-627B, un “conjunto de datos de múltiples corpus deduplicados de código abierto” publicado por Cerebras en junio de 2023. Lyon, que ha escrito una serie de guías para escribir no ficción, dice que algunos de sus trabajos se incluyeron en un conjunto de datos previamente entrenado que utilizó Adobe.
La demanda de Lyon, reportada originalmente por Reuters, alega que sus escritos fueron incluidos en un subconjunto procesado de un conjunto de datos manipulado que formó la base del programa Adobe: “El conjunto de datos SlimPajama fue creado copiando y manipulando el conjunto de datos RedPajama (incluida la copia de Books3)”, afirma la demanda. “Por lo tanto, debido a que es una copia derivada del conjunto de datos RedPajama, SlimPajama contiene el conjunto de datos Books3, incluidas las obras protegidas por derechos de autor del demandante y los miembros del grupo”.
“Books3” (una enorme colección de 191.000 libros utilizados para entrenar sistemas genAI) es una fuente constante de problemas legales para la comunidad tecnológica. RedPajama también ha sido citada en varias demandas. En septiembre, una demanda contra Apple alegaba que la empresa utilizó material protegido por derechos de autor para entrenar su modelo Apple Intelligence. La demanda citaba el conjunto de datos y acusaba a la empresa de tecnología de copiar obras protegidas “sin consentimiento y sin crédito ni compensación”. En octubre, una demanda similar contra Salesforce también alegó que la empresa utilizaba RedPajama con fines de formación.
Desafortunadamente para la industria tecnológica, este tipo de demandas son ahora algo común. Los algoritmos de IA se entrenan con enormes conjuntos de datos y, en algunos casos, estos conjuntos de datos supuestamente contienen software pirateado. En septiembre, Anthropic acordó pagar 1.500 millones de dólares a varios autores que demandaron a la empresa, acusándola de utilizar copias pirateadas de sus obras para entrenar a su chatbot Claude. El caso fue visto como un posible punto de inflexión en las batallas legales en curso sobre el material protegido por derechos de autor en los datos de entrenamiento de IA, de los cuales hay muchos.