Publicado el 15 de febrero de 2024
Sora AI por OpenAI
Creando video desde texto
Demos de Texto-a-Video de Sora
Indicación: Una mujer elegante camina por una calle de Tokio llena de neón cálido y señalización animada de la ciudad. Lleva una chaqueta de cuero negra, un largo vestido rojo y botas negras, y lleva un bolso negro. Lleva gafas de sol y lápiz labial rojo. Camina con confianza y casualidad. La calle está húmeda y reflectante, creando un efecto espejo de las luces coloridas. Muchos peatones caminan alrededor.
Indicación: Varios gigantescos mamuts lanudos se acercan caminando por un prado nevado, su largo pelaje se mueve ligeramente en el viento mientras caminan, árboles cubiertos de nieve y montañas nevadas dramáticas en la distancia, luz de media tarde con nubes tenues y un sol alto en la distancia crean un resplandor cálido, la vista de cámara baja es impresionante capturando al gran mamífero peludo con hermosa fotografía, profundidad de campo.
Indicación: Metraje histórico de California durante la fiebre del oro.
Indicación: La cámara sigue detrás de un SUV vintage blanco con un portaequipajes negro en el techo mientras acelera por un camino de tierra empinado rodeado de pinos en una ladera empinada, el polvo se levanta de sus neumáticos, la luz del sol brilla sobre el SUV mientras avanza por el camino de tierra, proyectando un resplandor cálido sobre la escena. El camino de tierra curva suavemente en la distancia, sin otros autos o vehículos a la vista. Los árboles a ambos lados del camino son secuoyas, con parches de vegetación dispersos. El auto se ve desde atrás siguiendo la curva con facilidad, dando la impresión de que está en un viaje robusto a través del terreno accidentado. El propio camino de tierra está rodeado de colinas y montañas empinadas, con un cielo azul claro arriba con nubes tenues.
¿Qué es el Modelo Sora de OpenAI?
Sora es un modelo de IA innovador desarrollado por OpenAI, capaz de crear escenas de video realistas e imaginativas directamente a partir de instrucciones textuales.
Se centra en comprender y simular el mundo físico en movimiento, ayudando a resolver problemas de interacción en el mundo real. Sora puede generar videos de hasta un minuto de duración, manteniendo la calidad visual y adhiriéndose a las indicaciones de los usuarios.
Capacidades de Sora
- Genera escenas complejas con múltiples personajes y movimientos específicos.
- Detalla con precisión sujetos y fondos basados en indicaciones de los usuarios.
- Comprende la existencia física de los elementos solicitados dentro de las escenas generadas.
¿Cómo obtener acceso a Sora y usar Sora?
No puedes iniciar sesión en Sora AI todavía.
El acceso a Sora actualmente está restringido a un grupo selecto de probadores. OpenAI ha otorgado acceso a investigadores del equipo rojo, artistas visuales, diseñadores y cineastas para evaluar posibles daños, recopilar comentarios creativos y avanzar en las capacidades del modelo Sora. Sin embargo, no hay una API pública o disponibilidad más amplia en este momento. Las capacidades mostradas en el sitio de OpenAI demuestran el potencial de este modelo de generación de video a partir de texto, pero el acceso práctico real sigue limitado a pruebas internas y ciertos grupos piloto externos. OpenAI señala que podrían considerar un acceso más amplio al integrar Sora en productos comerciales en el futuro, pero el cronograma para cualquier acceso público aún no está definido. Por ahora, el innovador modelo Sora solo está habilitado para un pequeño conjunto de usuarios de prueba fuera de OpenAI. El acceso público más amplio probablemente dependerá de las propias políticas de uso de OpenAI y su tolerancia al riesgo a medida que esta tecnología continúa evolucionando.
API de OpenAI Sora
Según la publicación en el blog de OpenAI que presenta Sora, el modelo Sora actualmente no tiene una API pública disponible.
Esto significa que el acceso a Sora actualmente está limitado a usuarios específicos de prueba y no está abierto al público en general. Esto es principalmente por consideración a los riesgos potenciales.
La publicación también menciona planes para implementar potencialmente Sora en los productos de OpenAI en el futuro. Esto sugiere que a largo plazo, OpenAI puede abrir el acceso a Sora para los usuarios a través de productos comerciales, pero actualmente no hay una API pública u otro canal de acceso disponible.
En resumen, el modelo Sora actualmente no tiene ninguna forma de API pública habilitada y está limitado a pruebas internas y usuarios seleccionados. Si OpenAI decide abrir el acceso a la API probablemente dependerá de sus planes comerciales futuros. ¡Por favor, házmelo saber si esta explicación en inglés necesita alguna aclaración adicional!
Precios de Sora y API de Sora
Ha habido mucha curiosidad sobre cuánto cobrará OpenAI por el acceso a su modelo Sora una vez que se lance al público. Después de revisar las capacidades de Sora basadas en la investigación publicada por OpenAI, predigo que adoptarán un enfoque de precios escalonado basado en factores como la resolución de salida. Para videos de calidad HD completa, que requieren los recursos computacionales más elevados, los precios podrían comenzar en $10 por minuto generado; precios más altos tampoco serían inesperados. Mi sensación es que la demanda inicial será más fuerte de sectores de entretenimiento como películas, programas de transmisión y desarrollo de juegos que pueden hacer el mayor uso de un asistente de video IA. Pero los costos determinarán cuán ampliamente los creadores profesionales más allá de esas industrias podrían aprovechar Sora también.
Mientras esperamos el anuncio formal de precios de OpenAI, hay mucha especulación sobre las implicaciones que este modelo innovador pero costoso podría tener en diversos campos.
¿Puedo usar Sora AI en ChatGPT?
Sora aún no es utilizable dentro del sistema ChatGPT u otros productos de OpenAI. Como el acceso sigue restringido a grupos de prueba selectos, la integración con herramientas públicas como ChatGPT no se ha habilitado.
Sora VS Diffusion
Sora se destaca de los modelos de difusión anteriores para la generación de video a partir de texto debido a su impresionante coherencia en videos más largos de 1 minuto. Donde modelos anteriores como DALL-E se centraron únicamente en imágenes, Sora demuestra la capacidad de renderizar dinámicamente identidades y contextos persistentes a lo largo de docenas de fotogramas generados. El modelo muestra una notable competencia al traducir indicaciones escritas no solo en escenas independientes, sino también en secuencias de video de transición suave y con múltiples perspectivas.
Esto representa un salto significativo de las técnicas de difusión de imagen estática. Al tener en cuenta la consistencia temporal a través de los fotogramas, Sora aborda un desafío central que ha afectado a otros enfoques de video generativo: mantener la identidad y la plausibilidad física en un contexto dinámico. El equipo de investigación atribuye la arquitectura basada en transformadores que permite una mejor integración a través del espacio y el tiempo, así como una novedosa capacitación basada en parches para desbloquear las sólidas capacidades de video de Sora.
Mientras que la calidad y fidelidad de la imagen continúan avanzando rápidamente, Sora avanza en video generado coherente y contiguo que falta en otras implementaciones de difusión. Su modelado de movimiento y conciencia física muestran una promesa única para aplicaciones de video de formato más largo. Mirando hacia adelante, Sora parece preparar una mayor exploración sobre cuán capaces podrían llegar a ser los métodos de difusión para replicar los principios fundamentales del mundo visible que nos rodea.
Sora VS Midjourney
Aunque Sora y Midjourney ambos muestran capacidades de generación de texto a imagen/video convincentes, sus enfoques actualmente impiden una comparación directa. Midjourney se ha centrado en permitir un amplio acceso público a su modelo de difusión de imagen, estableciendo una fuerte comunidad artística en el proceso. Sin embargo, el acceso a Sora sigue estrechamente restringido para pruebas internas, limitando la visibilidad en las fortalezas y debilidades de sus metodologías. Aún no hemos observado el nivel de control detallado y personalización que Midjourney otorga a cada usuario a través de indicaciones y estilos. Y el video presenta una complejidad innata más allá de las imágenes individuales. Dicho esto, la aparente competencia de Sora en video de formato más largo coherente con suavizado y perspectivas parece diferenciada de las competencias centrales de Midjourney hoy en día. En última instancia, la falta de acceso público a Sora significa que el benchmarking sólido contra plataformas creativas como Midjourney todavía no es factible. Evaluar en qué medida las técnicas de Sora podrían mejorar, extender o superar soluciones como Midjourney tendrá que esperar hasta que OpenAI abra el acceso formal o proporcione más transparencia. Por ahora, ambos apuntan hacia el futuro de la creatividad con IA, pero comparar salidas requerirá una disponibilidad más abierta de Sora primero.
Sora VS DALL·E 3
Sora es el modelo más grande de OpenAI capaz de generar videos de alta fidelidad de hasta un minuto de duración. Es un modelo generativo entrenado en datos de video e imagen de diversas duraciones, resoluciones y proporciones de aspecto, utilizando una arquitectura de transformador que opera en parches de espacio-tiempo de códigos latentes de video e imagen. El desarrollo de Sora forma parte de un esfuerzo más amplio para escalar modelos de generación de video, lo cual se considera un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico.
La relación entre Sora y DALL-E 3 radica principalmente en su enfoque compartido en la modelización generativa y su uso en la simulación de aspectos del mundo físico. DALL-E 3, conocido por generar imágenes a partir de descripciones textuales, utiliza un enfoque similar a Sora en términos de aprovechar modelos generativos a gran escala. Sora extiende esta capacidad a la generación de video, permitiendo la creación de contenido visual dinámico. Ambos modelos demuestran el potencial de usar modelos generativos para crear salidas de medios diversas y complejas, contribuyendo al avance de la creación de contenido impulsada por IA.
¿Alternativa al Sora de OpenAI?
No, actualmente no hay ninguna. Supera a otros productos en calidad de video, como Runway, Pika, Stable video.
Sora VS Pika, Runway, Stable Video Diffusion
Modelo | Fecha de lanzamiento | Facilidad de uso | Características | Precio |
---|---|---|---|---|
OpenAI Sora | Febrero 2024 | Desconocido | Poderoso, versátil | No abierto todavía |
Pika | Enero 2023 | Fácil | Fácil de usar, variedad de estilos y efectos | Suscripción |
Runway | 2023 | Difícil | Poderoso, versátil | Suscripción |
Stable Video Diffusion | 2023 | Difícil | Estabilización y mejora de video | Autoalojado / Suscripción |
Puntos Diferentes
- OpenAI Sora es el modelo de generación de video a partir de texto más poderoso, pero aún está en desarrollo y puede ser difícil de usar.
- Pika es una alternativa más amigable para el usuario a Sora y se puede usar para generar videos con una variedad de estilos y efectos.
- Runway y Stable Video Diffusion son plataformas de edición de video que ofrecen una variedad de herramientas para crear y editar videos, incluida la generación de video a partir de texto.
Limitaciones actuales de Sora
- Lucha con simular física compleja de manera precisa.
- A veces interpreta mal los detalles espaciales y secuencias de eventos específicos.
- Problemas para crear movimiento plausible y modelar interacciones de manera precisa entre objetos y personajes.
Medidas de seguridad
- Colaborando con equipos rojos para evaluar posibles daños o riesgos.
- Desarrollando herramientas de detección para contenido engañoso.
- Aplicando métodos de seguridad existentes de DALL·E 3, incluyendo clasificadores de texto e imagen para asegurar el cumplimiento de las políticas de uso.
Planes futuros
- Hacer Sora accesible a equipos rojos, artistas visuales, diseñadores y cineastas para obtener comentarios.
- Con la intención de incorporar metadatos C2PA en futuras implementaciones.
- Interactuando con legisladores, educadores y artistas globalmente para comprender casos de uso positivos potenciales y preocupaciones.