全AI生成MV｜完整計畫到內心崩潰的創作心得

Jul 18, 2024

這幾天在忙著交個AI影片競賽的作品，過程中預想的方式不斷打掉調整，最後變成了這樣的成品。

先說結論，所有工具覺得目前推最好用的是 ElevenLabs 的音效生成，可以大量省去找音效的時間！

另外Suno這類的生成音樂服務應該也有機會解決找配樂的問題，如果自己有音樂相關知識應該是可以用BPM的方式去設定出自己要的節奏。如果你已經有一個主調，或許可以用Suno的新功能，自己上傳旋律再生成的功能，來做出有系列感的配樂。

如果你喜歡，歡迎進到下面這個網址幫我按個表情符號，觀眾投票有另外的獎項：https://civitai.com/posts/4479050

其他詳細內容就下面慢慢跟大家分享

文字生音樂：Suno
文生圖：Midjourney
圖生影片：Luma
文生影片：Runway Gen-3
文字生音效：ElevenLabs
剪輯：Premiere
字幕：After Effect
提示詞生成：ChatGPT GPTs
Mid Journey V6 Prompt Creator
Runway Gen3 Prompt Enhancer by creamAI
故事參考：Claude

— — -

1. AI生成影片製作前認知
2. 原本想做的
3. 後來怎麼做
4. AI生成影片製作認知修正

▌1. AI生成影片製作思路預想

因為了解AI生成影像的原理就是「雜訊」，透過提示詞或是提供的圖像or影片作為藍本，進而形成新的影像。

在沒有藍本的情況下，基本上AI生成就是在「轉扭蛋」，構圖、人物可能完全不是你想要的，所以想要盡可能地提供藍本給AI。也因為本質是扭蛋，所以如果製作方向是重視人物連貫、風格連貫的「劇情片」將會非常痛苦。

因此最優的創作標的應該是可以接受相對不需要劇情，而風格可以接受跳動的MV類。

▌2. 原本想做的

其實這部MV原本想要呈現的方式是像張惠妹《身後》MV的一鏡到底。
PS : 跟後來成品看到的一點關聯都沒有XD

a. UE+SD

我計畫用Unreal Engine建立場景、人物模型跟攝影機，錄製影片來作為AI生成的藍圖，後續想使用的AI工具是Stable Diffusion Animatediff 搭配 ComfyUI。

不選擇 WebUI是因為 ComfyUI可控性更高、對本機消耗更低，但相對學習曲線也更高。

花了一天半時間學Unreal Engine、花了一天時間學ComfyUI，然後花了半天崩潰Stable Diffusion壞掉，後來因為交片時間不足放棄了這個方案。

b. UE + Style Transfer

用UE建構場景搞定了，但SD的學習曲線過陡，選擇嘗試了競賽合作單位 LensGo跟 DomoAI 的 Style Transfer 功能。

實際使用發現，過於光滑的平面，沒有足夠的雜訊讓AI去產生新的東西，成品過於平淡。

瀚文Facebook

Edit description

www.facebook.com

c. 穩定器實拍+ AE + Style Transfer

使用實拍的場景再搭配 Style Transfer的成本效果其實不錯。只是要再增加故事性的話，會需要再有人物的加入。

想到的方法是在AE的2.5D空間中，用一個null object綁定實拍影片跟攝影機，然後再在空間中部屬2D人物、物件，讓它們從影片跟攝影機之間經過。

←[影片] 固定(人物) ←[攝影機]

這樣的話，因為最後產出的畫面會是攝影機看到的畫面，所以就可以把人物加入到影片中，進而保留透視感。可以想像成你在看電影的時候，你的視角是攝影機，有人從你前面經過，然後你才看到大螢幕的感覺。

幾個cut還可以，但AE的2.5D環境要建構一整部片，其實不太友善。也可以用這個方法進到Blender或UE這樣的3D環境做，但也因為時間的關係，所以作罷。

瀚文Facebook

Edit description

www.facebook.com

▌3. 後來怎麼做

Runway Gen-3 + GPTs
Midjourney + Luma + GPTs

因為交片時間倒數2天，只好回去老方法。魔法小卡拿出來，使用最新的Runway Gen-3。Runway Gen-3 效果其實挺好的，而且官方也有提供指南，教你怎麼做比較好，再搭配相關的GPTs來人腦修正，生成的速度也很滿意。

缺點就是只有720p，然後就算固定seed了，人物、風格還是會亂跑，就算有使用官方提供的提示詞，AI也不一定會聽你的話。優點是生成速度比其他的線上服務非常快，應該每個影片2分鐘內就可以完成。

Luma 從圖生成影片的方式也算滿意，不聽話是預期之內了，但相對可控性比 Runway高一些，因為有原本的圖像作為基礎。缺點是生成速度，特別是晚上的時候特慢，很多都卡一個晚上才好，白天的話倒是有些幾分鐘內就完成。但不確定買付費會員的話會如何。

儘管這兩個工具是相對好用的，但我還是陷入了最前面提到的，想要追求敘事連貫性的苦痛之中，每次按下生成，焦慮感也會一起生出來。

在剪輯的過程中，使用了大量的變速跟倒轉，原本生成的素材運鏡節奏並不是自己想要的，可以透過這樣的方式解決。至於變速後缺幀的問題，原本有想用 DaVinci Resolve解決，但因為原本素材解析度就偏低，後來輸出後耗損嚴重，就沒有做修補。

我原本也有想要在AE裡面做一些煙霧、雨、電視光之類的效果去增加畫面質感，但因為AI影片的影像，並不像實際拍攝的影像穩定，所以追蹤功能並沒有辦法好好的追蹤。

例如現實中的電視機螢幕，怎麼變都是平行四邊形，但AI影片裡的電視就不一定了，周圍的物件變化也都不符合物理世界規則，所以追蹤出來的座標也會有問題。

然後我還有用GPT幫我修一下AE的表達式，來做出歌詞隨著節奏Glow的效果，這方面還挺不錯的。

▌4. AI生成影片製作認知修正

儘管原本就有「扭蛋」跟「不能追求敘事性」的認知，但實際在執行的時候，還是會希望他能多乖乖照自己的分鏡一點。

目前在線上看到成品很棒的AI影片，大多是生成出想要的東西後，再在後期用AE做修飾（畫面穩定的鏡頭中），甚至會再用AE加入手持鏡頭的晃動感。

或是在 Midjourney 生成後，再以PS生成功能，加入相要的元素後再用Luma作微幅的鏡頭運動，確保內容物不會因為大幅運動而大幅變形。

不只在構圖的部分就盡可能的去控制，在影片生成的部分也要盡可能的去躲避AI的弱點。

身為觀眾我們看到的基本上都是創作者大量轉扭蛋後比較好的部分，如果要自己創作的話，建議把乖乖聽話的預期降低到30%成功率，這樣可能心情會比較舒坦。我原本大概只有降到60%，所以在每次修正提示詞後看到成品還是充滿挫折。

希望這段經驗分享對大家有幫助囉

全AI生成MV｜完整計畫到內心崩潰的創作心得

▌1. AI生成影片製作思路預想

▌2. 原本想做的

a. UE+SD

b. UE + Style Transfer

瀚文Facebook

Edit description

c. 穩定器實拍+ AE + Style Transfer

瀚文Facebook

Edit description

▌3. 後來怎麼做

▌4. AI生成影片製作認知修正

Written by 粘瀚文 Billy Nien