【ストーリーアニメがAIの本命かも】スマービーニュース2024年クリスマス号

LINEで送る
Pocket

スマービーニュースでは海外の動画マーケティングトピックスを中心に動画ニュースを配信。
最新のマーケティングニュースや、生成AIを活用した動画のトレンドなどを紹介しています。

このシリーズでは生成AIを活用してどこまで動画はオートメーション化できるのかを裏テーマとして動画におけるAI活用の可能性を模索していきたいと思っており、専用の動画編集ソフトなどは使わず生成AIツールだけを使って「ビジネス動画っぽい動画を作る」というチャレンジをしています。

今回は少しアプローチを変えて「AIでストーリーものの動画はどこまで作れるか」というチャレンジをしてみました。まだまだ課題はあるものの、2024年12月の現時点で最も生成AIの恩恵を預かれるのはこの分野の動画かもしれないと感じています。

使ったツール

今回の動画制作で使ったツールをご紹介します。いくつかの動画を生成していますが、概ね30秒尺で1~2営業日程度という感じです。生成AIによる出力のクセがある程度見えてきているため、ストーリーさえ固まれば概ね1日くらいで制作できる印象です。

工程ツール今回の作業時間備考
ネタ出しマンパワー15分程度簡単な会話劇のため、特にChat GPTに頼るほどではなくオリジナルです。
ナレーション台本マンパワー1時間程度生成AIの動画出力状況にあわせて動画にあわせて台本を修正しているため、このレベルの尺に対しては時間がかかっています。
画像生成ChatGPT/Midjourney3~4時間今回の動画の肝はほぼMidjourneyによるキャラクター出力といっても過言ではありません。Chat GPTでプロンプトを生成し、Midjourneyで繰り返し出力をするというワークフローで生成しています。
動画化ChatGPT/Runway3~4時間Midjourneyでの画像からimage to video で生成しています。Chat GPTでプロンプトを生成し、Runwayで出力するというワークフローになります。
ナレーションVoicevox2時間程度「歌を入れる」というチャレンジのため、想定よりも時間がかかっています。セリフ部分は数か所箇所のイントネーションのみ人力修正
BGMChatGPT~5分ChatGPTによりリコメンドをベースに当てています。
編集マンパワー30分程度Adobe Premiere Proで編集していますがカット編集と簡単なMAだけのため、動画編集ソフトは高度なものは不要です。
サムネイルMidjourney10分程度生成した画像から選定しています。

ChatGPT:プロンプト生成

画像や動画生成AIの殆どがAIベースのため、日本語で書いたイメージをChatGPTによりツールにあわせてプロンプト化しています。ツール間のやりとりは手動であり、出力結果から修正点をChatGPTに伝え直すといった作業は発生するため、AIに任せっ切りという作業イメージではありません。出力結果からプロンプトの修正点を見つけ出し、生成AIのクセに合わせてアレンジを加えるといった作業はまだまだ必要です。

Midjourney:画像生成

画像生成は2024年12月時点で最もメジャーといえるMidjourneyを採用しています。非常に有用なツールですが「同一キャラをシーンに合わせて出力する」という点については機能的には実装されているものまだまだ発展途上です。そのため、キャラの造形にはあまり特徴を持たせず、言語化しやすい「服装や小道具などキャラクターとしてのアイコン」により特徴づけることでキャラクターの同一性を作り出しています。ごまかしではありますが、初見であれば作画監督が違うシーンの組み合わせ、くらいにはなっているかなぁと思っています。このあたりの実践的なテクニックは別の記事でまとめたいと思っています。

 

Runway:動画化

Midjourneyにより作画された画像から、image to Videoの機能により動画化しています。キャラクターの動作指示は非常に難しくAI側がプロンプトをどのように解釈しているかを想像しながら修正するという地道な作業が必要となります。画像生成に比べ動画生成はAIの解釈に任せる範囲が多く、大雑把な指示のほうが良いケース、細かい指示があったほうが良いケースなど、シーンごとに使うテクニックが変わってくる印象です。通称「生成AIガチャ」に頼りながらも、解釈のクセに応じた修正プロンプトを作っていく必要があります。

 

VoiceVox:演技、歌

今回会話劇を想定して制作したため、イントネーションの調整が多少必要であろうということでVoiceVoxを活用しています。クレジット表記が必要などの制限はありますが、商用利用も可能でありつつ、歌を歌わせることができることで、VoiceVoxを採用しました。演技を前提としたイントネーションやアクセントの修正は「可能だが経験が必要」というのが感想です。音感の良い方であればスムーズに使えるかもしれませんが、各単語、文節ごとに綿密な調整が必要になってくるため、品質やスピードを求めるのであれば人間が吹き込んだほうが早い、というのが2024年12月現在の状況でしょうか。

2025年のAI動画はどこに向かう?

これまで遊びのツールでしかなかった画像・動画生成AIも、得意分野に限れば十分に商用利用ができる可能性を感じています。従来「低価格なアニメ制作」と言えばモーショングラフィックによる単純化されたアニメが中心でしたが、限定的な用途に限り生成AIにより「セルアニメ」が低価格で実現できそうです。とはいえ、再現性・同一性など、同じキャラ・同じシーンを再現することは困難であり、その特性を許容できる用途限定にはなりそうですが。

生成AI自体も日々進化しているため、再現性や同一性を担保できるのはそう遠くない気がします。また、11月後半のスマービーニュースでも触れましたが「概念図などの抽象的なもの」「架空の物体」の生成はまだまだ課題があるという状況もそう遠くないうちに解消するでしょう。

そうなった場合には動画制作のコモディティ化は一気に進むと思われますが、大事なのは結局「台本」や「構成」といった「伝える技術」になってくると思います。

来年もAIを活用した動画制作はチャレンジし続けたいと思っています。