「作れる」から「魅せる」へ。動画生成AIの進化と映像制作のこれから
「AIで動画が作れるらしい」
そう聞いたことがある方は多いと思います。ただ、その認識のまま止まっていると、今この分野で起きている変化を見落としてしまうかもしれません。
この2年ほどの間に、AIによる動画制作は驚くほど変わりました。「なんとなく絵が動く」程度だったものが、カット割りや演技の指示までできる「映像演出」のレベルに達しつつあります。今回は、生成AIの進化の歴史を時系列で整理しながら、私たちが各時点で実際に制作した映像も交えてお伝えします。
2024年 — 「とりあえず動かせる」から始まった
2024年7月、Runway社が「Gen-3 Alpha」というツールをリリースしました。1枚の画像をアップロードし、「こう動かして」とテキストで指示を入れると、AIがその画像をもとに短い動画を生成してくれる。いわゆる「Image to Video(画像から動画へ)」と呼ばれる技術です。
ただ、この時点での動画生成は正直なところ「何が出てくるかわからない」という世界でした。指示した通りに動くこともあれば、全く意図しない映像になることもある。いわば、AIにサイコロを振ってもらって、良い目が出たものを使う、という作り方です。
それでも、1枚の絵から映像が生まれるという事実は大きな可能性を感じさせるものでした。私たちもこの時期、Gen-3 Alphaを使った映像を制作しています。
「動かす」ことはできても、「演出する」ことはできなかった
この頃のAI動画制作では、スタートの画像は指定できても、動画がどう終わるかはAI任せでした。「この人物がカメラに向かって歩いてきて、最後に笑顔で立ち止まる」といった演出上の意図を反映させることが、技術的にまだ難しかったのです。
2025年前半 — 「狙って作れる」時代の始まり
2025年に入ると、大きな転換が2つ起きました。
1つ目は、画像生成の質が一段上がったこと。ChatGPTに搭載された「GPT Image 1」は、プロンプト(テキストの指示)に対する忠実度が格段に高く、「こういう絵が欲しい」と思った通りの画像が出せるようになりました。SNSでは「GPT絵」と呼ばれ、大きな話題になった時期です。
2つ目は、Runway「Gen-4」やShengshu Technology「Vidu Q1」に搭載された「Reference(リファレンス)」機能。これは、「この人物の見た目を覚えておいて、別のシーンでも同じ人物として動画を作って」とAIに伝えられる仕組みです。それまでは、カットが変わるたびに人物の顔や服装が変わってしまうのが当たり前でした。この機能の登場により、「同じキャラクターが複数のシーンに出演する」ことが初めて実現しました。
「同じ人物が、違うシーンに出る」の意味
これは単なる技術的な進歩ではありません。人物の一貫性が保てるということは、「物語」が作れるようになった、ということです。A地点からB地点へ移動する人物、会議室で話した後に廊下を歩く社員。そうした「連続した状況」を映像で表現できるようになったことで、AI動画は「素材」から「コンテンツ」へと変わり始めました。
2025年後半 — 品質が「実用レベル」に到達した
2025年8月、Googleが「nanobanana」という画像生成AIをリリースしました。一見変わった名前ですが、その能力は画期的でした。
nanobananaの最大のブレイクスルーは、「複数のキャラクターが同一性を保ったまま、1枚の画像の中に同時に登場できる」ことです。それまでの画像生成AIでは、1人のキャラクターを安定して描くことすら難しく、「Aさんが笑顔で、Bさんが資料を渡している」といった複数人物の場面を意図通りに描くことは事実上不可能でした。nanobananaはこの壁を突破し、さらに11月にリリースされた上位版「nanobanana Pro」では、最大14枚の参照画像をもとに人物やオブジェクトの同一性を厳密に維持できるようになりました。
この進化により、「特定の登場人物が、異なるシーンで一貫した見た目のまま演技する」という画像素材が安定して作れるようになり、AI動画の「素材の土台」が商用レベルに達しました。
「キャラクターの同一性」が映像制作を変えた
複数の人物を同一性を保って描けるようになったことで、「チームのやり取り」「上司と部下の会話」「顧客との商談」といった、ビジネスの現場でよくある複数人物のシーンをAIで作れるようになりました。1人だけが動く映像から、「人と人の関係性」が見える映像へ。この変化は、企業が使う動画の幅を大きく広げた転換点です。
【実写AI動画の活用アイデア】コンプライアンス研修の再現動画をAIで作る
毎年恒例のコンプライアンス研修、社員の反応は薄くありませんか?スライドだけの研修が「他人事」に聞こえるなら、AI実写動画...
2026年 — 「1本の映像を演出する」時代へ
そして2026年に入り、動画生成AIは決定的な段階に入りました。「マルチショット」と呼ばれる機能が各社から一斉にリリースされたのです。
マルチショットとは、複数のカット(場面)を連続して生成する機能です。これまでは1カットずつ別々に生成し、後から編集ソフトでつなぎ合わせていました。マルチショット対応により、「シーン1で人物が話し始め、シーン2でカメラが切り替わり、シーン3で別の場所に移動する」という映像の一連の流れをAIに生成させることができるようになったのです。
Kuaishou社の「Kling 3.0」では複雑な人間の動きを破綻なく生成する技術が、Googleの「Veo 3.1」では音声との完全同期が、ByteDance社の「Seedance 2.0」では最大12ファイルを同時に参照して一括で映像を組み上げる機能が実現しています。
私たちも、Klingのマルチショット・マルチリファレンス機能を使った映像を制作しました。
カット割りという「映像の文法」がAIに持ち込まれた
マルチショットの登場は、AI動画制作に「カット割り」という映像の基本文法が入ってきたことを意味します。どのタイミングでカメラを切り替えるか、どの角度から見せるか、何秒そのカットを維持するか。これまで映像ディレクターが経験と感覚で判断していた領域に、AIが入ってきたのです。
【生成AIって何ができる?】生成AI動画のビジネス活用
生成AI動画の進化は驚異的ですが、「何ができるか」と「自社でどう使えるか」のギャップに悩んでいませんか?本記事では、企業...
AIが映像を作る時代に、人が担う仕事は何か

ここまで見てきた通り、AI動画の技術は「動かす → 狙う → 品質を上げる → 演出する」という段階を経て、急速に進化しています。では、この先はどうなるのか。
私たちは、AI動画制作が2つの方向に分かれていくと考えています。
1つは、「AI独自の表現を追求する」方向。AIにしか作れない映像美や、実写では不可能な抽象的・超現実的な表現を活かした映像です。アート作品やブランドイメージの映像に向いていますが、「何を伝えたいか」よりも「どう魅せるか」に比重が置かれるため、ビジネス用途としては限定的です。
もう1つは、「ストーリーが追える映像」の方向。派手な映像効果よりも、最低限の演技と場面転換で「伝えたいことが伝わる」映像を作る路線です。サービス紹介、研修動画、採用コンテンツなど、企業が実際に使う動画の大半はこちらに当てはまります。
そしてこの後者の路線で差がつくのは、映像の美しさではなく「シナリオ」と「カット割り」です。何をどの順番で見せるか。どこでカメラを切り替えるか。どの情報を映像で伝え、どの情報をテキストやナレーションに任せるか。つまり、「演出の設計力」こそが、AI時代の映像制作における最大の差別化要因になります。
技術が進めば進むほど、「何を、誰に、どう伝えるか」を設計できる人の価値が上がる。AIが映像を作る時代だからこそ、映像の「中身」を考える力がこれまで以上に問われるようになっています。
ビジネス向けのシナリオなら「スマービーAI」で。
【年表】画像生成AIと動画生成AIの進化の歩み

ここまでの流れを、画像と動画それぞれの主要なツールと「何ができるようになったか」で整理します。
画像生成AIの歩み
| 時期 | ツール | 何ができるようになったか |
|---|---|---|
| 2023年10月 | DALL-E 3(ChatGPT統合) | ChatGPTとの対話で画像生成が可能に。「GPT絵」ブームの始まり |
| 2025年3月 | GPT Image 1 | プロンプトへの忠実度が飛躍的に向上。アニメ調の生成能力が高く、SNSで大きな話題に |
| 2025年8月 | nanobanana(Google) | 複数キャラクターの同一性維持が実現。1枚の画像に複数人物を一貫した見た目で同時描画 |
| 2025年11月 | nanobanana Pro(Google) | 最大14枚の参照画像に対応。人物・オブジェクトの同一性を厳密に維持した複雑な構図が可能に |
| 2025年12月 | GPT Image 1.5 | テキスト描画やプロンプト追従の精度が向上。動画用の素材制作としての安定性が高まる |
動画生成AIの歩み
| 時期 | ツール | 何ができるようになったか |
|---|---|---|
| 2024年7月 | Runway Gen-3 Alpha | 1枚の画像から動画を生成できるように。テキストで「カメラを引いて」「人物が歩き出す」などの動きを指示可能に |
| 2024年8月 | Runway Gen-3 Alpha(更新) | 「最初の画像」と「最後の画像」を両方指定できるように。動画の始まりと終わりをコントロール可能に |
| 2025年3月 | Runway Gen-4 | 参照画像機能を搭載。「この人物の見た目を覚えて」と指示でき、別シーンでも同じキャラクターで動画を生成 |
| 2025年4月 | Vidu Q1 | 最大7枚の参照画像に対応。開始/終了の画像指定と効果音の同時生成を統合 |
| 2025年9月 | Sora 2(OpenAI) | 映像と音声を一体で生成。顔や声を動画にはめ込む「Cameo機能」を搭載。マルチショットの概念を大幅に引き上げた |
| 2025年9月 | Kling 2.5 Turbo | 「最初に〇〇して、次に〇〇して」と時系列で動きを指示できるように。複数キャラクターのやり取りを高精度に制御 |
| 2025年12月 | Runway Gen-4.5 | 音声との同期、長尺のマルチショットに対応。物体や人物の動きの自然さが飛躍的に向上 |
| 2026年2月 | Kling 3.0 | 格闘やダンスなど複雑な人間の動きを破綻なく生成。3〜15秒のマルチショットに対応 |
| 2026年2月 | Seedance 2.0(ByteDance) | 画像・動画・音声を最大12ファイルまとめて読み込み、複数シーンの切り替えと口の動きの同期を一括生成 |
| 2026年初頭 | Veo 3.1(Google) | 口の動きと音声の同期精度が最高水準に。最大4枚の参照画像で構図を厳密に指定可能 |
Sora 2のサービス終了が残した教訓
2025年9月に大きな話題になったSora 2ですが、2026年3月にOpenAIがサービス終了を発表しました。運営コストの大きさと収益化の難しさが原因とされています。
この出来事は「1つのツールだけに頼っていると、そのサービスがなくなったときに何もできなくなる」というリスクを業界に突きつけました。現在は、用途に応じて複数のツールを使い分けるのが主流です。人物の動きが得意なツール、音声との同期が得意なツール、画像の正確さが得意なツール。それぞれの強みを組み合わせて1本の映像を仕上げる、という制作スタイルになりつつあります。
【動画のAIO/SEO対策】AIのための動画の名札 Video Object
以前の記事で、動画はAIにとって「中身が読めない情報」になりやすいという話をしました。動画の中で話されている内容、映って...
Q.
2026年時点で、ビジネス用途のAI動画はもう実用レベルですか?
Q.
AI動画制作には、どのツールを使えばよいですか?1本に決めて学習すべきでしょうか?
Q.
AIが映像を作れるようになると、映像制作会社に依頼する意味はなくなりますか?
Q.
AI動画の制作費用は、人手で作る動画と比べてどのくらい変わりますか?
動画制作・動画マーケティングのご相談
記事に関するご質問や、制作のご依頼・お見積もりなど、
まずはお気軽にお問い合わせください。