Siglo XXI. Diario digital independiente, plural y abierto. Noticias y opinión
Viajes y Lugares Tienda Siglo XXI Grupo Siglo XXI
21º ANIVERSARIO
Fundado en noviembre de 2003
Portada
Etiquetas

Científicos demuestran que los LLM pueden entrenarse con bases de datos éticas

Agencias
viernes, 6 de junio de 2025, 16:25 h (CET)

MADRID, 6 (Portaltic/EP)
Un grupo de científicos ha demostrado que es posible entrenar grandes modelos de lenguaje (LLM, por sus siglas en inglés) con una base de datos ética, que no perjudica a los titulares de los derechos de autor, con resultados de rendimiento comparables a los de los modelos más populares.

Los LLM que impulsan la inteligencia artificial generativa necesitan enormes cantidades de datos en su entrenamiento para tener un buen rendimiento, y por ello, empresas como Meta, Google y OpenAI han terminado acudiendo a internet e incluso a sus propios productos para obtenerlos.

Esta situación ha generado un debate sobre el uso de documento protegidos por derechos de autor para entrenar esos LLM, en el que unas voces abogan por compensar a quienes están en posesión de esos derechos y otras, por preservar la capacidad de los modelos para aprender de material protegido.

Compensar a los titulares de los derechos de autor costaría miles de millones de dolares, e incluso las denuncias por falta de compensaciones pueden suponer un daños financieros de también miles de millones de dólares, como recogen científicos de 14 instituciones en un reciente estudio, con el que exponen la alternativa de una base de datos ética.

En concreto, indican que han creado una base de datos de dominio público y licencia abierta de 8TB, que han denominado The Common Pile, que recoge datos de 30 fuentes, incluídos investigaciones, audios, libros, enciclopedias, material educativo, código de programación y transcripciones, entre otros.

Para demostrar que es posible entrenar LLM sin perjudicar a los autores y con resultados en línea con los modelos más populares, han entrenado con texto extraído de The Common Pile dos modelos de 7.000 millones de parámetros, de un billón y dos billones de tokens, respectivamente.

Aseguran que los dos modelos ofrecen "un rendimiento competitivo" con modelos como Llama 1 y Llama 2 de 7.000 millones de parámetros. "Nuestros resultados demuestran que The Common Pile no solo es el conjunto de datos más sólido para el preentrenamiento bajo una restricción de licencia abierta, sino que también produce modelos comparables a aquellos entrenados con una cantidad equivalente de datos sin licencia", afirman en el texto de la investigación publicado en GitHub.

Consideran, además, que la base de datos "representa el primer paso en el camino hacia un ecosistema de modelo de lenguaje más ético, donde el rendimiento no tiene por qué llegar a costa de los derechos de los creadores y la transparencia legal".

Noticias relacionadas

El Juzgado Contencioso-Administrativo de Pontevedra ha anulado una factura de 15.600 € que pretendía cobrar la Distribuidora del grupo Naturgy alegando un “fraude eléctrico” que no ha podido demostrar en el juicio. En sentencia firme, UFD Distribución contra el recurso presentado ante la Resolución de la Xunta de Galicia, que daba la razón al titular del contrato de suministro y consideraba nula la refacturación practicada por alegar un ‘fraude eléctrico’ en el contador de electricidad.

Sí, me refiero a ti. A ese que de vez en cuando va a recoger a sus nietos al cole. A esos que están sentados en un banco de un jardín e incluso a los que están echando una partidita de dominó, esperando matar al contrario esos seis dobles que están a la expectativa, mirando de reojo al rival para que no le asesinen esa ficha adversa que todos no sabemos dónde meter cuando nos hunde la suerte en el reparto de fichas. A

La Asociación Mundial de Atletismo (World Athletics) publicó este jueves las conclusiones de un estudio realizado durante los Juegos Olímpicos de Paris 2024 con el objetivo de identificar y proteger a los atletas de los mensajes abusivos enviados a través de las plataformas de las redes sociales, siendo el racismo, con un 18%, y el abuso sexualizado (30%) los principales problemas.
 
Quiénes somos  |   Sobre nosotros  |   Contacto  |   Aviso legal  |   Suscríbete a nuestra RSS Síguenos en Linkedin Síguenos en Facebook Síguenos en Twitter   |  
© 2025 Diario Siglo XXI. Periódico digital independiente, plural y abierto | Director: Guillermo Peris Peris
© 2025 Diario Siglo XXI. Periódico digital independiente, plural y abierto