Gemini Omni genera vídeo a partir de imagen, texto, vídeo o audio. La calidad final cambia mucho según cómo se le haga la petición. Tras varias pruebas, la conclusión que deja esta guía de XDA es clara: funciona mejor cuando se le dirige como a una cámara, no como a un modelo de lenguaje.

Google lo presentó en Google I/O 2026, y el enfoque importa más de lo que parece. El modelo responde mejor si recibe referencias visuales, un sujeto principal bien definido y límites concretos sobre lo que no debe hacer. Eso encaja con una forma de trabajar más cinematográfica que textual.

Gemini Omni se apoya mejor en una referencia visual que en una descripción vaga

El primer ajuste que marca diferencias es empezar con una imagen cuando sea posible. En una prueba con un dibujo sencillo de un perro de estilo cartoon, el modelo lo convirtió en un personaje animado con bastante fidelidad al boceto original.

Conservó detalles concretos: las orejas caídas, las manchas negras, el collar rojo y hasta la personalidad visual del personaje. Frente a eso, una petición solo en texto deja mucho más margen de interpretación. Pedir “un perro bípedo” o “darle vida” abre demasiadas posibilidades. Algunas quedan muy alejadas de la idea inicial. El resultado pierde control.

La lectura que deja esta parte es simple: Gemini Omni no imagina tan bien como infiere. Cuando ya existe una forma o estilo en la cabeza del usuario, una referencia visual le da un ancla mucho más sólida.

Menos sujetos y más foco: así evita que la escena se disperse

El segundo truco pasa por no llenar la petición de elementos. El autor de la guía explica que añadir demasiados sujetos no mejora el clip; solo reparte la atención del modelo entre demasiadas ideas.

La comparación con una cámara encaja bien. Si el objetivo es una demostración de producto, conviene indicar que ese producto es el centro del plano y dejar en segundo término lo que ocurre alrededor. Si no, el fondo y los elementos secundarios terminan compitiendo con el objeto principal.

Ese matiz importa porque Gemini Omni se mueve en un terreno creativo, pero necesita una jerarquía clara. Cuanto más concreto sea el objetivo del vídeo, menos ruido introduce en la escena.

Planos, cámara y restricciones: Gemini Omni responde mejor a una dirección clara

La tercera idea es plantear la petición como si se estuviera preparando un plano de cine. Antes de escribir, conviene resolver preguntas muy básicas: dónde está la cámara, qué hace el sujeto, qué tono debe tener la escena y si el plano debe ser amplio, dramático u observacional.

Según la experiencia que recoge la fuente, cuanto más claras sean esas decisiones al principio, menos trabajo habrá después corrigiendo salidas que no encajan. Gemini Omni parece necesitar instrucciones sobre composición, movimiento, iluminación y encuadre, no solo una lista de rasgos.

La cuarta pista va en la misma dirección: decirle qué no debe hacer también ayuda. El modelo mantiene contexto dentro de una misma conversación, así que las generaciones anteriores pueden arrastrar estilos, ángulos o luces similares aunque se quiera cambiar de rumbo.

Eso sirve para mantener continuidad, pero también puede limitar la variedad cuando se busca una salida distinta. Introducir restricciones o negativas permite cortar esa inercia y evitar que todo el material salga con un mismo aire. La conclusión de la guía es bastante directa: Gemini Omni da mejores vídeos cuando se le pide menos improvisación y más dirección visual. En paralelo, su evolución encaja con el resto de Gemini, que ya empieza a ganar capas de uso más especializadas, como vimos en la nueva capa visual de Gemini.

Qué queda después de estas pruebas con Gemini Omni

El resumen que deja varias semanas de pruebas es que el modelo responde mejor a instrucciones breves pero bien pensadas. Una referencia visual, un sujeto principal, decisiones de cámara y una lista corta de límites ofrecen una base más sólida que un prompt largo y genérico.

La propia fuente lo resume con una idea bastante precisa: Gemini Omni funciona mejor cuando se le trata como a una persona con cámara que como a un LLM. Si Google sigue ampliando el papel visual de Gemini, ese enfoque pesará cada vez más en la calidad de sus resultados.

Puedes seguir a HardwarePremium en Facebook, Twitter (X), Instagram, Threads, BlueSky o Youtube. También puedes consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.

FAQ

¿Qué tipo de entrada mejora más los vídeos de Gemini Omni?

La fuente señala que una referencia visual suele ayudar más que una descripción solo en texto. Un boceto o una imagen dan al modelo una base más concreta para construir el vídeo.

¿Por qué Gemini Omni responde peor con demasiados detalles?

Porque reparte la atención entre muchos sujetos o ideas. El resultado puede perder foco si la petición mezcla demasiados elementos a la vez.

¿Qué papel tienen los planos y la cámara en Gemini Omni?

La guía explica que conviene pensar la petición como un plano de cine. Definir posición de cámara, movimiento, iluminación y tono reduce la cantidad de correcciones posteriores.

¿Sirve decirle a Gemini Omni lo que no debe hacer?

Sí. Como conserva contexto dentro de una conversación, los prompts negativos ayudan a frenar estilos o decisiones visuales que se repiten entre generaciones.

Comentarios

Cargando comentarios…