La pista promete superar a Sora de OpenAI con su último modelo de la Generación 4 y nuevos desafíos.

La llegada de los Modelos generativos ha revolucionado la forma en que las imágenes y videos se producen y consumen, y actualmente está generando resultados cada vez más impactantes. Hace solo unos años, crear contenido visual de esta magnitud requería un inmenso esfuerzo humano y la participación de un equipo altamente especializado. Sin embargo, es importante no perder de vista que, aunque estas tecnologías están avanzando a un ritmo acelerado, todavía existen importantes limitaciones que restringen su aplicación en ciertos espacios profesionales. Estas restricciones se deben a la complejidad de los procesos, la variabilidad en los resultados y la dificultad para mantener estándares de calidad en diferentes contextos.

Uno de los retos más significativos que enfrentan los creadores es la necesidad de mantener una coherencia visual a lo largo de los diferentes resultados generados. En el caso de proyectos más ambiciosos, se ha observado que la inteligencia artificial generativa a menudo se enfrenta a dificultades al representar un mismo carácter u objeto en distintos niveles o entornos. Aunque estas variaciones pueden parecer sutiles a simple vista, a menudo son complicadas de gestionar y pueden afectar considerablemente el resultado final. No obstante, hay un esfuerzo continuo por parte de numerosos desarrolladores para abordar y solucionar estos problemas.

El Land Railway Gen-4 llega como una pieza clave con coherencia

La escena se vuelve a iluminar con la nueva propuesta de la startup con sede en Nueva York, que ha presentado su modelo de video Gen-4. La principal innovación de este desarrollo es la notable mejora en la coherencia visual, donde se reconoce que modelos anteriores como OpenAai Sora tenían ciertas debilidades. Con esta nueva capacidad, la aspiración es que los creadores de contenido puedan elaborar narrativas más elaboradas sin tener que lidiar con discontinuidades visuales que irrumpan en la fluidez de la historia.

El modelo Gen-3 Alpha, que precede a Gen-4, ya había brindado un notable nivel de detalle y control sobre el contenido generado. Sin embargo, Gen-4 lleva esta propuesta a nuevas alturas. En este modelo, ahora es factible generar signos, ubicaciones y objetos que mantienen su coherencia a lo largo de diversas escenas. Desde el momento en que se definen la apariencia, el estilo y la atmósfera de los elementos, el modelo es capaz de retener y replicar estas características de manera constante, cuadro tras cuadro y en múltiples escenas.

Con Gen-4, los usuarios pueden utilizar referencias visuales combinadas con instrucciones precisas para generar imágenes y videos que mantienen un estilo, ubicación y temática coherentes. Además de garantizar esta continuidad, el modelo también busca resaltar su capacidad para crear videos dinámicos que presenten movimientos realistas, así como una notable consistencia en personajes, objetos y estilos. Según los desarrolladores de Runway, su comprensión del mundo es inigualable y se debe a su enfoque innovador en la creación de contenido multimedia.

El mejor ejemplo de las capacidades de Gen-4 se puede observar en el video que acompaña a este artículo. En él, se presentan diversas funciones de este nuevo modelo, y al afinar nuestra percepción, resulta evidente que estas son escenas sintéticas tanto en imagen como en movimiento. Sin embargo, este avance representa un salto significativo para las producciones audiovisuales que están dispuestas a adoptar este tipo de estética, ofreciendo así nuevas oportunidades de creación y narración.

El modelo Gen-3 Alpha ya había demostrado su eficacia en producciones como ‘House of David’, disponible en Amazon Prime Video, así como en anuncios para la marca PUMA. En esta nueva fase, Gen-4 se ha comenzado a implementar en las cuentas de pago de Runway, lo que permite que los clips se generen con longitudes de cinco y diez segundos en resolución de 720p. Los precios del servicio oscilan entre 15 y 95 dólares estadounidenses al mes, con la opción de un plan corporativo para empresas, cuyos costos aún no se han hecho públicos.

Fotos | pista

Para más detalles, en se hace eco de la creciente popularidad de las imágenes generadas por inteligencia artificial, destacando cómo la compañía ha comenzado a imponer ciertas restricciones en el acceso a los recursos gráficos diseñados por GPT.