全AI生成MV|完整計畫到內心崩潰的創作心得
這幾天在忙著交個AI影片競賽的作品,過程中預想的方式不斷打掉調整,最後變成了這樣的成品。
先說結論,所有工具覺得目前推最好用的是 ElevenLabs 的音效生成,可以大量省去找音效的時間!
另外Suno這類的生成音樂服務應該也有機會解決找配樂的問題,如果自己有音樂相關知識應該是可以用BPM的方式去設定出自己要的節奏。如果你已經有一個主調,或許可以用Suno的新功能,自己上傳旋律再生成的功能,來做出有系列感的配樂。
如果你喜歡,歡迎進到下面這個網址幫我按個表情符號,觀眾投票有另外的獎項:https://civitai.com/posts/4479050
其他詳細內容就下面慢慢跟大家分享
文字生音樂:Suno
文生圖:Midjourney
圖生影片:Luma
文生影片:Runway Gen-3
文字生音效:ElevenLabs
剪輯:Premiere
字幕:After Effect
提示詞生成:ChatGPT GPTs
Mid Journey V6 Prompt Creator
Runway Gen3 Prompt Enhancer by creamAI
故事參考:Claude
— — -
1. AI生成影片製作前認知
2. 原本想做的
3. 後來怎麼做
4. AI生成影片製作認知修正
▌1. AI生成影片製作思路預想
因為了解AI生成影像的原理就是「雜訊」,透過提示詞或是提供的圖像or影片作為藍本,進而形成新的影像。
在沒有藍本的情況下,基本上AI生成就是在「轉扭蛋」,構圖、人物可能完全不是你想要的,所以想要盡可能地提供藍本給AI。也因為本質是扭蛋,所以如果製作方向是重視人物連貫、風格連貫的「劇情片」將會非常痛苦。
因此最優的創作標的應該是可以接受相對不需要劇情,而風格可以接受跳動的MV類。
▌2. 原本想做的
其實這部MV原本想要呈現的方式是像張惠妹《身後》MV的一鏡到底。
PS : 跟後來成品看到的一點關聯都沒有XD
a. UE+SD
我計畫用Unreal Engine建立場景、人物模型跟攝影機,錄製影片來作為AI生成的藍圖,後續想使用的AI工具是Stable Diffusion Animatediff 搭配 ComfyUI。
不選擇 WebUI是因為 ComfyUI可控性更高、對本機消耗更低,但相對學習曲線也更高。
花了一天半時間學Unreal Engine、花了一天時間學ComfyUI,然後花了半天崩潰Stable Diffusion壞掉,後來因為交片時間不足放棄了這個方案。
b. UE + Style Transfer
用UE建構場景搞定了,但SD的學習曲線過陡,選擇嘗試了競賽合作單位 LensGo跟 DomoAI 的 Style Transfer 功能。
實際使用發現,過於光滑的平面,沒有足夠的雜訊讓AI去產生新的東西,成品過於平淡。
c. 穩定器實拍+ AE + Style Transfer
使用實拍的場景再搭配 Style Transfer的成本效果其實不錯。只是要再增加故事性的話,會需要再有人物的加入。
想到的方法是在AE的2.5D空間中,用一個null object綁定實拍影片跟攝影機,然後再在空間中部屬2D人物、物件,讓它們從影片跟攝影機之間經過。
←[影片] 固定(人物) ←[攝影機]
這樣的話,因為最後產出的畫面會是攝影機看到的畫面,所以就可以把人物加入到影片中,進而保留透視感。可以想像成你在看電影的時候,你的視角是攝影機,有人從你前面經過,然後你才看到大螢幕的感覺。
幾個cut還可以,但AE的2.5D環境要建構一整部片,其實不太友善。也可以用這個方法進到Blender或UE這樣的3D環境做,但也因為時間的關係,所以作罷。
▌3. 後來怎麼做
Runway Gen-3 + GPTs
Midjourney + Luma + GPTs
因為交片時間倒數2天,只好回去老方法。魔法小卡拿出來,使用最新的Runway Gen-3。Runway Gen-3 效果其實挺好的,而且官方也有提供指南,教你怎麼做比較好,再搭配相關的GPTs來人腦修正,生成的速度也很滿意。
缺點就是只有720p,然後就算固定seed了,人物、風格還是會亂跑,就算有使用官方提供的提示詞,AI也不一定會聽你的話。優點是生成速度比其他的線上服務非常快,應該每個影片2分鐘內就可以完成。
Luma 從圖生成影片的方式也算滿意,不聽話是預期之內了,但相對可控性比 Runway高一些,因為有原本的圖像作為基礎。缺點是生成速度,特別是晚上的時候特慢,很多都卡一個晚上才好,白天的話倒是有些幾分鐘內就完成。但不確定買付費會員的話會如何。
儘管這兩個工具是相對好用的,但我還是陷入了最前面提到的,想要追求敘事連貫性的苦痛之中,每次按下生成,焦慮感也會一起生出來。
在剪輯的過程中,使用了大量的變速跟倒轉,原本生成的素材運鏡節奏並不是自己想要的,可以透過這樣的方式解決。至於變速後缺幀的問題,原本有想用 DaVinci Resolve解決,但因為原本素材解析度就偏低,後來輸出後耗損嚴重,就沒有做修補。
我原本也有想要在AE裡面做一些煙霧、雨、電視光之類的效果去增加畫面質感,但因為AI影片的影像,並不像實際拍攝的影像穩定,所以追蹤功能並沒有辦法好好的追蹤。
例如現實中的電視機螢幕,怎麼變都是平行四邊形,但AI影片裡的電視就不一定了,周圍的物件變化也都不符合物理世界規則,所以追蹤出來的座標也會有問題。
然後我還有用GPT幫我修一下AE的表達式,來做出歌詞隨著節奏Glow的效果,這方面還挺不錯的。
▌4. AI生成影片製作認知修正
儘管原本就有「扭蛋」跟「不能追求敘事性」的認知,但實際在執行的時候,還是會希望他能多乖乖照自己的分鏡一點。
目前在線上看到成品很棒的AI影片,大多是生成出想要的東西後,再在後期用AE做修飾(畫面穩定的鏡頭中),甚至會再用AE加入手持鏡頭的晃動感。
或是在 Midjourney 生成後,再以PS生成功能,加入相要的元素後再用Luma作微幅的鏡頭運動,確保內容物不會因為大幅運動而大幅變形。
不只在構圖的部分就盡可能的去控制,在影片生成的部分也要盡可能的去躲避AI的弱點。
身為觀眾我們看到的基本上都是創作者大量轉扭蛋後比較好的部分,如果要自己創作的話,建議把乖乖聽話的預期降低到30%成功率,這樣可能心情會比較舒坦。我原本大概只有降到60%,所以在每次修正提示詞後看到成品還是充滿挫折。
希望這段經驗分享對大家有幫助囉