Siglo XXI. Diario digital independiente, plural y abierto. Noticias y opinión
Viajes y Lugares Tienda Siglo XXI Grupo Siglo XXI
21º ANIVERSARIO
Fundado en noviembre de 2003
Tecnología

El MIT elimina un conjunto de datos de 80 millones de imágenes por contenido racista y ofensivo

jueves, 2 de julio de 2020, 11:26 h (CET)
El MIT elimina un conjunto de datos de 80 millones de imágenes por contenido racista y ofensivo
MADRID, 2 (Portaltic/EP)
Los creadores de un conjunto de datos de 80 millones de imágenes minúsculas del Instituto Tecnológico de Massachusetts (MIT) y de la New York University (NYU), en Estados Unidos, han decidido eliminarlo debido a que tenía contenido racista y ofensivo.

El conjunto de datos fue creado en 2006 y contiene fotos extraídas de los motores de búsqueda de Internet con 53.464 palabras diferentes, copiadas directamente de Wordnet, una base de datos de palabras de clasificación creada por la Universidad de Princeton.

Los términos se han utilizado para descargar automáticamente imágenes de la palabra correspondiente de los motores de búsqueda de Internet.

El conjunto de datos tiene más de 79,3 millones de imágenes y fueron almacenados con imágenes en color de 32 x 32 megapíxeles. Recientemente se descubrió que este conjunto de datos contenía una gama de etiquetas racistas, sexistas y ofensivas, como "sospechoso de violación" o "abusador de menores". También tenía contenido pornográfico, entre otras cosas, imágenes no consentidas.

"El conjunto de datos es demasiado grande y las imágenes son tan pequeñas que puede ser difícil reconocer visualmente su contenido. Por lo tanto, la inspección manual, incluso si es posible, no garantizará que las imágenes ofensivas puedan eliminarse por completo", han señalado en una carta los profesores del MIT Bill Freeman y Antonio Torralba y el profesor de la NYU Rob Fergus.

Por ello, los creadores del conjunto de datos han decidido retirarlo "formalmente" y han afirmado que "no se volverá a poner en línea". Asimismo han instado a la comunidad a abstenerse de usarlo y que "elimine cualquier copia existente del conjunto de datos que pueda haberse descargado".

"Los prejuicios, imágenes ofensivas y perjudiciales y la terminología despectiva enajenan a una parte importante de la comunidad, precisamente aquellos que estamos haciendo esfuerzos para incluir", señala la carta. "Esto es extremadamente desafortunado y va en contra de los valores que nos esforzamos por mantener", ha añadido.

Las deficiencias del conjunto de datos fueron descubiertas por un estudio publicado a finales de junio por los investigadores predoctorales Abeba Birhane, de la Universidad de Dublin, y Vinay Prabhu, Carnegie Mellon University.

Noticias relacionadas

Speechless lanza una licencia de IA híbrida para combinar el uso de voz real e IA generativa en los videojuegos

La Eurocámara apoya reforzar el control en pagos electrónicos y dar derecho al reembolso a víctimas de fraude

Spotify alcanza los 615 millones de usuarios

El 80% de las 'apps' de citas pueden compartir o vender la información personal de los usuarios con fines publicitarios

Apple presentará nuevos iPad el 7 de mayo

 
Quiénes somos  |   Sobre nosotros  |   Contacto  |   Aviso legal  |   Suscríbete a nuestra RSS Síguenos en Linkedin Síguenos en Facebook Síguenos en Twitter   |  
© Diario Siglo XXI. Periódico digital independiente, plural y abierto | Director: Guillermo Peris Peris