#procesos #motion #IA
Todo empezó con un descarte. O más bien con 111 descartes.
Estaba probando el comando --sref random en Midjourney sobre una imagen de una chica con un chicle, para explorar estilos y guardarme aquellos que me encajasen para futuros proyectos.
Al final no sé qué pasó, que acabé generando 111 imágenes de chicas haciendo una pompa de chicle. Ciento once. En parte fué porque no daba con lo que buscaba y, y también porque reconozco que caí en la trampa de la IA: ese bucle de hacer solo una prueba más a ver si la siguiente sale perfecta. Además el que fuera un proyecto personal sin fecha de entrega, tampoco ayudaba en su finalización, podía iterar al infinito.
Lo que parecía inútil acabó siendo la clave
Parecía tiempo y créditos tirados a la basura. Esas 111 imágenes se quedaron guardadas en una carpeta durante un tiempo, estancadas, sin saber muy bien qué hacer con ellas. Hasta que un día, navegando por LinkedIn, la idea hizo clic.
Había tanto ruido, tanta gente hablando a la vez, algunos mensajes tan vacíos sobre IA, esa sensación de urgencia constante por no quedarse atrás... que la burbuja parecía a punto de estallar. Y esa sensación encajó perfectamente con el material que tenía guardado. Esas 111 imágenes inútiles de diferentes personas inflando la misma pompa se convirtieron en la representación perfecta de la idea central de POP.
Ya lo tenía, ahora me faltaba la escena: la pompa explotando. En redes por lo general, se suele enseñar el resultado final limpio y sin errores (o con los fallos muy bien disimulados). La realidad es que pedirle a la IA una acción tan específica como "una pompa de chicle estallando" rompe el modelo.
La IA es iteración: es prueba, error, gastar créditos y cruzar los dedos para que el modelo entienda algo de tus prompts
Lo que a nivel físico parece un movimiento simple, en generación de vídeo se traduce en un catálogo de deformaciones y acciones aleatorias. Y no por falta de precisión técnica: para estructurar los prompts utilicé un GPT personalizado (AI Video Prompt Generator for Veo2, Kling, Runway). Aun así, algunos resultados fueron directamente perturbadores. Aqui tenéis algunos con sus respectivos prompts y modelos
Al final, la solución fue dejar de buscar el prompt perfecto y dividir el plano por necesidades técnicas:
Kling 1.6 Standard: Lo usé exclusivamente para la acción de inflar el chicle. Fue el modelo que mejor entendió la física del chicle inflándose.
VEO 2: Lo utilicé para el momento de la explosión y las salpicaduras de chicle.
Cuando me preguntan qué modelo es mejor para hacer qué, personalmente creo que no hay un modelo definitivo. Gana el que resuelve tu plano en ese momento.
Conseguida la pompa, me puse con el guion y el sonido. El texto base, lo trabajé con ChatGPT para darle forma a la narración. Utilicé la versión 4, específicamente el modelo que era mejor para ideas creativas y brainstorming (un modelo que ya han retirado).
Para la locución tiré de ElevenLabs. Elegí la voz de Ivanna , Girl Next Door porque suena muy natural, sin tono de anuncio ni inflexiones de podcast. Eso sí, al igual que con la imagen, la voz rara vez sale como quieres a la primera; tocó hacer varias pruebas e iteraciones hasta clavar el tono.
Para terminar de pulir a escena en cuanto a sonido, añadí un murmullo de cafetería de fondo (biblioteca gratuita de stock) y lo mezclé con otras voces secundarias de ElevenLabs que decían frases aleatorias sobre IA que escuchamos todos los día. El resultado es un desorden sonoro intencionado, muy casual y realista.
Siento que la IA es brutal para arrancar, para generar piezas e ideas a una velocidad impensable hace un par de años. Pero cuando toca hilar fino, cuando buscas ese empaque visual concreto y el control total del detalle, de momento no hay atajos: necesitas el entorno tradicional.
La IA sirve para arrancar, pero el control real del detalle sigue estando en las herramientas de siempre
En After Effects:
Filtro timewarp para la sucesión acelerada de las 111 chicas.
Máscara circular y un wiggle para simular las imperfecciones de movimiento que haces al soplar un chicle.
Desenfoque en el centro para integrar las bocas que salían demasiado nítidas en las imágenes.
En Premiere:
Montaje final, subtítulos (siempre amarillo sobre negro por legibilidad) y mezcla de audio con Essential Sound.
Detrás de una pieza de 25 segundos hay horas de prueba y error.
Lo que me llevo de este proyecto:
El material descartado a veces es el punto de partida de la siguiente idea.
La IA exige flexibilidad. Tienes que aprender a rescatar lo útil de lo que te da, en lugar de forzarla a darte exactamente lo que imaginabas.
Las herramientas de toda la vida siguen siendo el lugar donde la pieza cobra sentido real.
Y ahora que ya lo sabeis todo sobre el proceso, aquí tenéis el video. Espero que disfruteis el resultado final.