【長編AIアニメPJ開始】スマービーニュース2025年12月号

LINEで送る
Pocket

スマービーニュースでは海外の動画マーケティングトピックスを中心に動画ニュースを配信。
動画を使ったマーケティング手法や、生成AIを活用した動画のトレンドなどを案内する予定です。

このシリーズでは生成AIを活用してどこまで動画はオートメーション化できるのかを裏テーマとして
動画におけるAI活用の可能性を模索していきたいと思っています。

昨年、 セルアニメ風ショートストーリー動画制作サービス 「スマービーAI」をリリースし、
生成AI動画の可能性は日々広がっています。各種の生成AIサービスも日進月歩で進化をしており
動画でやりたいことができる環境がどんどん実現しています。

今回、初のオリジナルストーリーアニメを制作・公開しました。
この数か月での生成AIの怒涛の変化と合わせてご紹介します。

たった1人で長編アニメ映画を作る。AI映像の「最大の弱点」はこうして突破した

「AI動画で長尺動画は無理でしょう?」

そう思っていませんか。実は私も、半年くらい前まではそう思っていました。

CMのコンテ用、1~2分の短編ならまだしも、90分の長編動画なんて正気の沙汰じゃない。
顔は変わるし(フリッカー)、服の色は点滅するし、商用で出せる品質にならない。

でも、その常識はもう古い。

現在制作中のこの長編AIアニメは、1人のスタッフで作られています。
予算数億円、スタッフ数百人のプロジェクトではありません。PC1台と、選び抜かれたAIツールだけ。

なぜそんなことが可能なのか? 従来のAI動画の最大の欠点である「一貫性のなさ(キャラ変や設定崩壊)」を、AIが技術的にねじ伏せたからです。

使ったツール

今回のNINE制作で使ったツールをご紹介します。プリプロが中心のため、通常のAI動画制作よりも多く時間がかかっています。プリプロが完了しつつある現状では1分制作でおおむね1週間程度と考えています。

制作工程使用ツール・モデル今回の作業時間技術的役割と解決課題
脚本・構成独自ツール Narrative Weaver (Google Studio AI)2か月Gemini 3.0 Proの長大コンテキストを活用した物語的整合性と伏線管理をシステム化。脚本の進捗に合わせてカスタマイズ。アイデア出し~執筆まではChat GPTとGeminiで実施。執筆以降の修正は独自ツール「Narrative Weaver」で実施。
キャラクター原案Midjourney1週間–cref機能によるデザインの固定。三面図の抽出。
コンテ制作Sora2/マンパワー3日Sora2によるマルチカットを参考にコンテ化。
背景美術、シーン制作Nano Banana (Higgsfield / Gemini Image)1週間・Text to image による背景案制作 ・Higgsfield Angleによる視点操作 ・character Reference との合成
映像生成、中割Kling,MiniMax Hailuo1週間開始・終了フレーム指定によるカメラワークの制御/開始フレームからのAI生成
音響・楽曲Suno / ElevenLabs / MiniMax Audio1週間Narrative Weaverによる脚本抽出後、音声合成。
Web・宣伝Gemini / Nano Banana1週間LP制作、バナー制作

脚本:AIに「記憶」を持たせれば、伏線は回収できる

AIにストーリーを書かせることは十分できるようになりました。
しかしながら、人をワクワクさせる構成や伏線/伏線回収など、長時間の軸でストーリーを書かせるのは難しいです。

1,000~2,000字程度であれば簡単に出力できます。ただ、面白いかは別です。

コント台本、エモーショナルなショート脚本などチャレンジしましたが「面白く書く」ということはできませんでした。

一方で、人が書く物語にも弱点はあります。
時系列、登場人物の関係性、どこまで何を書いたか、そういう因果関係を整理しながら物語を書くのはとても難しい。

そこで今回「NINE」ではGoogle Studio AIを活用し、文章の整合性をチェックしながらアイデアを物語化させるためのサポートツールを独自に開発しました。
「Narrative Weaver」という独自ツールの中身はGoogleのGemini 3.0 Proです。これのすごいところは、文庫本数冊分(約100万〜200万文字)を丸ごと記憶できること。
そのため、今回のプロジェクトでは以下のような脚本ワークフローで行っています。

制作工程技術的役割と解決課題
アイデア出し&壁打ちマンパワーとGeminiやChat GPT
アイデアからキャラクターやシーンを想定人間→生成AI(Midjourney/Nano banana)
簡単な会話劇を作成マンパワー
会話劇から小説的な補足や肉付け(本文)GeminiやChat GPT
過去情報との整合性チェックNarrative Weaver
音声収録の用テキスト抽出Narrative Weaver

という形で進めています。さらに、現在はここからカット割り直前までに分ける拡張を進めています。

Narrative Weaver Ver1.12

キャラクター:一貫性はほぼ解決

「カットが変わると、主人公が別人の顔になる」。これがAI動画の障壁のひとつでした。

結論から言えば、Googleの「Nano Banana Pro」(11月20日リリース)によって状況は大きく変わりました。
これまでの「言葉(Text to Image)」から「参照(Reference to Image)」へとルールが変わったのです。
これまでのAIは、プロンプトで「赤いジャケット、金の刺繍…」とできる限り詳細にプロンプト書いていました。
でも、それだと毎回違うキャラクターがが出てきてしまう。

Reference to Imageにより1枚のキャラクター設定画を読み込ませれば、その顔立ちのまま「横を向く」「走る」「泣く」といった動作だけを変更できるようになったのです。

これもNano banana Proで作った画像です。

背景:一貫性に解決の兆し

キャラクターの次に課題になってきたのは「背景の一貫性」です。「逆アングルに切り替えたら、窓の位置が変わっていた」なんてことはまだまだ日常茶飯事です。

ではReference to Imageではできないか。結論から言えばできませんでした。リファレンスの参照は「内向きのカメラ」によるもののようです。

これもNano banana Proによるものです。

例えば、一点透視図法の街並みから、建物の側面(ファサード)を正確に描き出すような処理はできません。
おそらくAIが画像から空間を想像するというところまでいっていないのではないかと考えています。

ただ、現在は「Higgs field Angle」等の技術で、限定的ですがマルチアングル化が可能になりつつあります。
画像から空間を描き出す、という感じではないのですが、おそらくパース線をAIで補助的に引いて、角度を変えているという感じです。

ただ、課題としてははっきりしている印象なので、そう遠くないうちに解決すると思っています。

スタイル:最大の難関

「アニメ調で作ったのに、なんか実写っぽい……」。実は簡単なように見えて現状最も難しいテーマです。

画像レベル、リファレンスレベルですと統一できているように見えますが、それでも多少のブレは発生します。さらに、これを動画生成AIに流し込むと必ずしも思い通りにはなりません。
「NINE」の制作でも、油断するとすぐに質感が3DCGっぽくなったり、突然リアルな実写調になったりする現象(スタイルのブレ)に悩まされました。
グレーディングやライティングといった「作家性」に関わる部分は、AIの指定だけで完結させるのはまだ時期尚早。このスタイル指定はまだまだ実用段階とは言えないです。

AIが出してきた素材をそのまま使うのではなく、「トーンを統一する」という仕上げや確認の工程はまだまだ必要な印象です。

テイストを合わせながらプロンプトを微調整

3ヶ月後の未来:「絵コンテ」が消える日

「3ヶ月後」なんて書くと笑われるかもしれませんが、この業界のスピード感なら「明日」の話かもしれません。

次に起きる波は「マルチアングル」と「マルチカット」です。

先日リリースの「KLING o1」や「Sora2」を見ていると、1回の指示で「引きの画」と「寄りの画」を同時に書き出すことが当たり前になりつつある。
Grokもプロンプト次第で複数のカットを連続して生成してきます。

これが何を意味するか? 「動画を作ってから、カット割りを考える」という逆転現象です。

これまでは頭の中で絵コンテを描き、それに合わせて素材を作っていました。
これからは、とりあえずシーンを動画で生成し、そこから良いアングルを切り抜いて編集する。つまり、絵コンテなしでいきなり映像編集に入れるようになる。
動画制作のコモディティ化は、これからさらに進みます。

 

画像はすでにマルチアングルが可能です。

 

動画制作の今後

今後、「絵コンテ」さえAIがマルチカット生成で作れるようになると、動画制作の技術的ハードルは限りなく下がります。
その時、映像制作会社に最後に残る価値は「原作(台本・脚本)」と「ディレクション」です。

現在、生成AI動画の中心は脚本のいらない短編やミュージックビデオといったものが中心です。
極端なことを言えば「キャラクターの一貫性」さえ担保されれば、誰でもそれっぽいものが作れるという状況なのです。
でも、3分を超える映像で視聴者を惹きつけられるのは、AIの性能ではなく「物語の面白さ」だけ。

つまり、「原作(台本・脚本)」そして「ディレクション」が重要になってくると考えています。
この生成AIアニメを通じて、長編の物語に生成AIだけでどこまでやれるのかを実験していきたいと思います。