Mistral lanza Voxtral, su primer modelo de voz abierto capaz de transcribir audios de hasta 30 minutos con precisión

miércoles, 16 de julio de 2025, 10:13 h (CET)

MADRID, 16 (Portaltic/EP)
Mistral ha lanzado su primer modelo abierto de voz Voxtral, con capacidades para transcribir audios de hasta 30 minutos o de hasta 40 minutos para comprensión, así como resolver preguntas sobre el contexto del audio y generar resúmenes estructurados.

La compañía ha subrayado la importancia del habla como la forma "más natural" de interacción entre humanos y ordenadores, para lo que ha compartido su intención de ofrecer herramientas de transcripción "excepcional", un profundo conocimiento y fluidez multilingüe, todo ello, con una implementación abierta y flexible.

En este sentido, Mistral ha presentado la familia de modelos de comprensión del habla Voxtral, que está compuesta por una versión de 24B para aplicaciones a escala de producción y una variante de 3B para implementaciones locales y en el 'edge'.

Estos modelos se han ideado con el objetivo de ofrecer herramientas de calidad para inteligencia de voz de forma abierta y gratuita, como alternativa a las API "cerradas y propietarias" que ofrecen otras empresas en el sector, tal y como ha matizado la tecnológica en un comunicado en su web.

Así, Mistral ha asegurado que Voxtral ofrece "precisión de vanguardia" y capacidades de comprensión semántica nativa en abierto, lo que permite a ambas versiones de tamaño llevar a cabo transcripciones de audios de hasta 30 minutos, así como la comprensión de audios de hasta 40 minutos, con una longitud de contexto de token de 32K.

Igualmente, este modelo también es capaz de responder a preguntas de los usuarios sobre el contenido del audio, al tiempo que genera resúmenes estructurados "sin necesidad de encadenar modelos de lenguaje y ASR separados".

Además, Voxtral es multilingüe, con lo que detecta automáticamente los idiomas utilizados en los audios y es capaz de comprender con un alto rendimiento inglés, español, francés, portugués, hindi, alemán, holandés e italiano, entre otros.

Por otra parte, también incluye facilidades como la llamada de funciones directamente por voz. Esto permite la activación directa de funciones de 'backend', flujos de trabajo o llamadas API, en función de las intenciones habladas del usuario. Es decir, convierte las interacciones de voz en comandos de sistema procesables.

Todo ello está reforzado igualmente por una alta comprensión de texto, ya que conserva las capacidades de su modelo de lenguaje principal, que es Mistral Small 3.1, tal y como ha detallado la compañía.

Por tanto, los modelos Voxtral se convierten en un servicio pensado para llevar a cabo interacciones reales y acciones posteriores, como resúmenes, respuestas, análisis y obtención de información.

De hecho, Mistral ha asegurado que "para casos de uso con un presupuesto ajustado", Voxtral Mini (3B) supera a Whisper de OpenAI a la hora de transcribir audios "por menos de la mitad del precio". Igualmente, para casos de uso "premium" Voxtral iguala el rendimiento de ElevenLabs Scribe.

Estos modelos se han puesto a disposición de los usuarios de forma gratuita y se han publicado de forma abierta bajo la licencia Apache 2.0. Así, se puede acceder a Voxtral desde la API de Mistral y desde el asistente Le Chat, y la compañía proporcionará próximamente "un punto final altamente optimizado" solo para transcripción.

Noticias relacionadas

Un juzgado de Pontevedra condena a UFD del Grupo Naturgy por refacturaciones sobre fraudes falsos

El Juzgado Contencioso-Administrativo de Pontevedra ha anulado una factura de 15.600 € que pretendía cobrar la Distribuidora del grupo Naturgy alegando un “fraude eléctrico” que no ha podido demostrar en el juicio. En sentencia firme, UFD Distribución contra el recurso presentado ante la Resolución de la Xunta de Galicia, que daba la razón al titular del contrato de suministro y consideraba nula la refacturación practicada por alegar un ‘fraude eléctrico’ en el contador de electricidad.

Epístola a un anciano

Sí, me refiero a ti. A ese que de vez en cuando va a recoger a sus nietos al cole. A esos que están sentados en un banco de un jardín e incluso a los que están echando una partidita de dominó, esperando matar al contrario esos seis dobles que están a la expectativa, mirando de reojo al rival para que no le asesinen esa ficha adversa que todos no sabemos dónde meter cuando nos hunde la suerte en el reparto de fichas. A

El racismo y el abuso sexualizado siguen utilizándose en un 48% para atacar a los atletas en redes sociales

La Asociación Mundial de Atletismo (World Athletics) publicó este jueves las conclusiones de un estudio realizado durante los Juegos Olímpicos de Paris 2024 con el objetivo de identificar y proteger a los atletas de los mensajes abusivos enviados a través de las plataformas de las redes sociales, siendo el racismo, con un 18%, y el abuso sexualizado (30%) los principales problemas.

Mistral lanza Voxtral, su primer modelo de voz abierto capaz de transcribir audios de hasta 30 minutos con precisión

Lo más leído

Noticias relacionadas

​Un juzgado de Pontevedra condena a UFD del Grupo Naturgy por refacturaciones sobre fraudes falsos

​Epístola a un anciano

El racismo y el abuso sexualizado siguen utilizándose en un 48% para atacar a los atletas en redes sociales

Un juzgado de Pontevedra condena a UFD del Grupo Naturgy por refacturaciones sobre fraudes falsos

Epístola a un anciano