Sora de OpenAI: Genera vídeo realista a partir de texto

Sora de OpenAI: Genera vídeo realista a partir de texto

Ayer OpenAI anunció SORA, un modelo de generación de vídeo a partir de texto que parece mucho más avanzado que otros que hemos visto antes.

¿Qué es Sora y por qué parece mejor que otros?

Sora es un modelo de generación de video en base a texto. Le das un prompt descriptivo y te da como resultado un vídeo que lo representa. Aparentemente es mucho mejor que otros que hemos visto anteriormente, los resultados son muy realistas y consistentes.

Flipad con este clip de un minuto, y os cuento qué tiene de genial:

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Donde parece que brilla sobre otros modelos similares es en la consistencia y el realismo.

Consistencia

La consistencia de imágenes entre fotogramas es lo más difícil y es donde la mayoría de los modelos fallan. Sora parece ser muy capaz de hacer un vídeo completo consistente. Fijaos en el clip de este post: la chica, el movimiento, la ciudad al fondo. Consistente a lo largo de un minuto entero.

Realismo

Además, según explica OpenAI, otra genialidad, la que le da parte del realismo a los clips, es que están entrenando Sora para que tenga un buen entendimiento del mundo y pueda simular cómo funciona el mundo real (tanto desde el punto de vista de aspecto visual como de simulación física). No se trata sólo de que haga imágenes bonitas. Con un buen entendimiento del mundo, serán más realistas.

¿Cómo funciona Sora?

Sora es un modelo de difusión que genera un vídeo partiendo de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos.

Sora es capaz de generar vídeos enteros de una sola vez o de ampliar los vídeos generados para hacerlos más largos. Al dotar al modelo de previsión de muchos fotogramas a la vez, se ha resuelto el difícil problema de asegurar de que un sujeto sigue siendo el mismo aunque se pierda de vista temporalmente.

Al igual que los modelos GPT, Sora utiliza una arquitectura de transformadores que ofrece un rendimiento de escalado superior.

Representa los vídeos y las imágenes como colecciones de unidades de datos más pequeñas denominadas «patches», cada una de las cuales es similar a un «token» en GPT. Al unificar la forma en que representamos los datos, puede entrenar transformadores de difusión en una gama de datos visuales más amplia de lo que era posible hasta ahora, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigaciones anteriores sobre los modelos DALL-E y GPT. Utiliza la técnica de recapitulación de DALL-E 3, que consiste en generar subtítulos muy descriptivos para los datos visuales de entrenamiento. Como resultado, el modelo es capaz de seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de ser capaz de generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El modelo también puede tomar un vídeo existente y ampliarlo o rellenar los fotogramas que faltan.

Sora sirve de base para modelos capaces de comprender y simular el mundo real, una capacidad que es un hito importante para lograr la Inteligencia Artificial General (AGI · Artificial General Intelligence).

Seguridad de Sora

OpenAI va a tomar varias medidas de seguridad importantes antes de que Sora esté disponible a nivel general.

Se están construyendo herramientas para ayudar a detectar contenidos engañosos, como un clasificador de detección que puede decir cuándo un vídeo ha sido generado por Sora. Está previsto incluir metadatos C2PA.

Además de desarrollar nuevas técnicas para preparar el despliegue, se están aprovechando los métodos de seguridad existentes de los productos que utilizan DALL-E 3, que también son aplicables a Sora.

Por ejemplo, una vez en un producto de OpenAI, el clasificador de texto comprobará y rechazará las solicitudes de entrada de texto que infrinjan las políticas de uso, como las que solicitan violencia extrema, contenido sexual, imágenes que inciten al odio, imágenes de famosos o la propiedad intelectual de terceros. También se han desarrollado potentes clasificadores de imágenes que se utilizan para revisar los fotogramas de todos los vídeos generados y garantizar que cumplen las políticas de uso antes de mostrárselos al usuario.

A pesar de las numerosas investigaciones y pruebas realizadas, no se pueden predecir todas las formas beneficiosas en que la gente utilizará esta tecnología, ni todas las formas en que abusará de ella. Por eso aprender del uso en el mundo real es un componente fundamental para crear y lanzar con el tiempo sistemas de IA cada vez más seguros.

Más ejemplos de Sora

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
Prompt: Historical footage of California during the gold rush.
Prompt: A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.
Prompt: The camera rotates around a large stack of vintage televisions all showing different programs — 1950s sci-fi movies, horror movies, news, static, a 1970s sitcom, etc, set inside a large New York museum gallery.
Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
Prompt: A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.
Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

¿Dónde se puede aplicar desde hoy mismo?

Yo creo que dónde más va a triunfar es en el sector del marketing audivisual. Las producciones se van a abaratar y simplificar. Si quieres una pieza audiovisual simple, puedes hacerla tú en vez de contratarla. Y si la contratas a una agencia, ésta podrá ofrecerte múltiples versiones de forma muy rápida y con mucho menor coste.

¿Quieres saber más sobre como aplicar la inteligencia artificial generativa en tu empresa? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Esta información está basada la información oficial de Sora, la información técnica de Sora como producto y la newsletter de David Hurtado (Innovation & Technology made easy | Innovation Lead at Microsoft) en LinkedIn.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.