Microsoft acelera su IA con MAI

Microsoft acelera su IA con MAI

Microsoft lleva sus modelos MAI a Foundry con tres nuevas propuestas para voz, transcripción e imagen

Microsoft ha anunciado la disponibilidad de tres nuevos modelos MAI en Microsoft Foundry: MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Con este lanzamiento, la compañía refuerza su apuesta por poner en manos de desarrolladores y empresas modelos propios de IA con un objetivo muy concreto: combinar calidad, velocidad y eficiencia de costes en casos de uso reales.

¿Qué es MAI?

Pero antes de entrar en detalle, conviene aclarar un punto importante: MAI hace referencia a Microsoft AI, la división con la que Microsoft está impulsando su nueva generación de modelos y productos de inteligencia artificial. Cuando Microsoft habla de “MAI models”, se refiere a sus modelos propios de IA, diseñados para integrarse en su ecosistema y desplegarse tanto en productos de consumo como en entornos empresariales.

Tres modelos especializados para escenarios concretos

La novedad no es solo que Microsoft presente nuevos modelos, sino que lo haga con una propuesta claramente especializada. En lugar de hablar de capacidades genéricas, la compañía pone el foco en tres ámbitos con una demanda creciente en el mercado: transcripción de audio, generación de voz y creación de imágenes.

MAI-Transcribe-1: precisión y velocidad en speech-to-text

MAI-Transcribe-1 es el nuevo modelo de transcripción de voz a texto de Microsoft. Según la compañía, ofrece un rendimiento de referencia en los 25 idiomas más utilizados de acuerdo con el benchmark FLEURS, y ha sido diseñado para responder bien incluso en entornos complejos, con ruido, audio irregular o situaciones reales alejadas de las condiciones ideales de laboratorio.

Microsoft también destaca su rendimiento operativo: asegura que la velocidad de transcripción por lotes es 2,5 veces superior a la de su oferta Azure Fast existente. A eso se suma un enfoque competitivo en precio, con una tarifa inicial de 0,36 dólares por hora, lo que sitúa al modelo como una opción especialmente relevante para escenarios de alto volumen.

Sus aplicaciones encajan con múltiples contextos empresariales: generación de subtítulos, transcripción de pódcast y vídeo, archivos de reuniones, cumplimiento normativo, análisis de llamadas o explotación de bibliotecas de audio para búsqueda, indexación y resumido.

MAI-Voice-1: una voz más natural, expresiva y personalizable

El segundo modelo anunciado es MAI-Voice-1, centrado en generación de voz. Microsoft lo presenta como su modelo de voz de gama alta, orientado a producir locuciones naturales y expresivas, manteniendo además consistencia en grabaciones largas y en escenarios donde la identidad vocal tiene un papel importante.

Uno de los aspectos más llamativos es la posibilidad de crear voces personalizadas de forma segura dentro de Foundry a partir de unos pocos segundos de audio. Esto abre la puerta a asistentes conversacionales, experiencias de atención al cliente más naturales, narración automatizada y nuevas interfaces de voz más cercanas a la identidad de marca o del hablante.

En términos de rendimiento, Microsoft afirma que el modelo es capaz de generar 60 segundos de audio en 1 segundo, con una eficiencia de inferencia optimizada para contener el coste. Su precio parte de 22 dólares por cada millón de caracteres.

MAI-Image-2: generación visual más rápida y pensada para creativos

El tercer modelo es MAI-Image-2, la apuesta de Microsoft en generación de imagen. La compañía lo sitúa entre sus modelos más avanzados en este ámbito y subraya que está diseñado para responder a necesidades creativas reales, no solo a demos llamativas. Entre los puntos que destaca están el fotorrealismo, la calidad de la iluminación, la fidelidad en tonos de piel, la riqueza de texturas y una mejor representación de texto dentro de composiciones visuales.

Microsoft señala además que MAI-Image-2 ha mejorado al menos 2 veces la velocidad de generación en Foundry y Copilot, manteniendo una calidad similar según datos de producción. También indica que este modelo ya se está desplegando en productos como Bing y PowerPoint, lo que sugiere una estrategia clara de integración transversal en su ecosistema.

La orientación a perfiles creativos es explícita. Microsoft explica que el modelo se ha trabajado teniendo en cuenta el feedback de fotógrafos, diseñadores y narradores visuales, con la intención de reducir el tiempo invertido en correcciones posteriores y facilitar una creación más útil desde el primer intento.

Más que nuevos modelos: una estrategia de producto

Más allá del anuncio puntual, este movimiento refleja algo más profundo: Microsoft quiere consolidar una oferta propia de modelos de IA capaces de alimentar tanto sus productos como las soluciones que construyan sus clientes sobre Foundry. El mensaje es claro: mejores modelos, más rápidos y más asequibles, con integración directa en una plataforma pensada para desarrollo y despliegue empresarial.

Ese punto es especialmente relevante para las organizaciones. No se trata solo de acceder a nuevas capacidades de IA, sino de hacerlo sobre una base que Microsoft presenta como preparada para escalar, con foco en seguridad, gobierno y uso responsable. En el anuncio, la compañía subraya que estos modelos han sido evaluados y sometidos a procesos rigurosos antes de su disponibilidad en Foundry.

Qué implica para las empresas

Para el entorno empresarial, la llegada de estos modelos amplía el abanico de escenarios que pueden abordarse dentro del ecosistema Microsoft. Desde automatizar la transcripción de reuniones o llamadas, hasta desplegar asistentes de voz más naturales o acelerar la producción de activos visuales para marketing, formación o comunicación interna, el alcance es amplio.

En definitiva, el anuncio de MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 confirma la intención de Microsoft de apostar por modelos propios dentro de su estrategia de IA. Y lo hace con una propuesta que responde a tres prioridades claras del mercado: capacidad técnica, eficiencia operativa e integración empresarial.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación Today we’re announcing 3 new world
class MAI models, available in Foundry
.

Resume o comparte este contenido a través de:

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.