スマービーニュースでは海外の動画マーケティングトピックスを中心に動画ニュースを配信。
最新のマーケティングニュースや、生成AIを活用した動画のトレンドなどを紹介しています。
このシリーズでは生成AIを活用してどこまで動画はオートメーション化できるのかを裏テーマとして動画におけるAI活用の可能性を模索していきたいと思っており、専用の動画編集ソフトなどは使わず生成AIツールだけを使って「ビジネス動画っぽい動画を作る」というチャレンジをしています。
前回、もっともお手軽にビジネス動画を作ってみましたが、やはりスライドショーという点は否めず、今回は「動画っぽさ」をどのように出すかにチャレンジしました。今回はキャラアバターによる口パク動画をAIツールだけで実現できないかチャレンジしました。
取り上げた記事について
今回取り上げたのはMarketingProfsの2024年11月26日の記事です。この記事は、Unbounce社による41,000サンプルのLP(ランディングページ)でのコンバージョン調査レポートの記事です。
業界別コンバージョン率
ご想像のとおり、LPによる平均コンバージョン率は業界によって大きく異なります。イベントやエンタメ業界でのコンバージョン率は12.3%、金融サービス業では8.4%、SaaS 企業では3.8%となっています。
チャネル別コンバージョン率
またチャネルによるコンバージョンにも大きな差があります。この記事によると、メールによるLP誘導の場合19.3%となっています。ただ、これについては他のチャネルが新規のみであるのに対し、メールが同じく新規開拓の数値なのかについての言及がないため、注意が必要です。
文書レベル別コンバージョン率
この記事でもっとも大事だと思ったのは、記事の文書レベルとコンバージョン率の関係です。文章の読みやすさをどのように分類しているのかはわかりませんが「小学生にもわかるような簡潔な文章」であると、高校生や大学生向けの文章レベルに対して2倍近いコンバージョンになっているという点です。「LPに掲載されている文章は小学生にもわかるのか?」というのは私達ももう一度取り組んでみようと思います。
使ったツール
今回のスマービーニュースで使ったツールですが、実際の動画としての制作時間は3時間程度です。ただ、「動画向きのネタ・素材探し」やツールの変更による「AIに任せられない工程の発生」により、人力割合が増えています。実際の量産体制に入ったとしても1時間程度はかかるのではないかと考えています。
工程 | ツール | 今回の作業時間 | 備考 |
ネタ出し | マンパワー | 1時間程度 | 動画ニュースっぽくするために、画像素材がある記事をあえてピックアップする必要があります。いくつかのテストの結果、GPTでの抽出は断念しました。 |
ナレーション台本 | ChatGPT | 30分程度 | ピックアップ記事から各40~1分尺になるように台本提案と壁打ち。最終的には人力で微調整は前回と変わりません。 |
画像選定 | マンパワー | ~10分 | Web記事から画像保存し、それを動画に貼り付ける一連の作業時間です。 |
背景動画 | Runway | 30分程度 | ニュースっぽい背景動画をRunwayで生成しています。プロンプト通りに動かない点が多く、想像よりも時間がかかっています。 |
キャラクター動画 | Vidnoz | 1時間程度 | 今回VidnozというAIツールを採用したのはLive2Dのように「キャラクターがしゃべる演出」を加えたかったという点があげられます。キャラクターの画像から音声に合わせて目と口を動かす部分はAIが担当しています。 |
動画化 | Vidnoz | 15分程度 | チャプタータイトルのみ装飾作業を実施。次回以降はテンプレート化。 |
ナレーション | Vidnoz | ~5分 | 今回はイントネーション等の調整が難しいツールのためAI任せです。 |
BGM | Vidnoz | ~5分 | 選曲機能などがないため、選曲は人力です。 |
サムネイル | マンパワー | ~5分 | 過去の制作画像のテキスト修正作業 |
前回に比べて変わった点を中心にご紹介します。
ChatGPT:台本
ChatGPTに「グラフを活用した記事」をピックアップしてもらいましたが、今回はすぐに適切なものが見つからず、プロンプトの修正をするよりも抽出された記事から「動画向きの記事をピックアップしたほうが早い」という結論なりました。ChatGPTがWebから記事を抽出する精度は上がっていますが、テキスト化されている本文内の意味の読み取りが中心のため、Webに掲載されている画像の意味の読み取りはまだまだなのかなぁという印象です。
また前回活用したVrewではナレーション台本から単語・文脈に合う画像を生成してるため、ニュースや調査記事の場合にはあまり有効ではありません。そのため今回は画像のピックアップ工程は記事の選定の作業とイコールとも言えます。
Runway:背景動画
まだ業務上で動画生成AIの本格活用には至っていませんが、背景動画や賑やかしでは使えるのではないかとRunwayでの背景動画の生成を行っています。Image to Videoの機能でFirstカットとLastカットを指定してその間を自動生成する機能でループ動画ができそうなのですが、実際にはかなり無理矢理に辻褄を合わせているというのが現状です。
別の機会で動画生成AIの現状については整理したいと思いますが、2024年11月現在の状況を一言で言うのであれば、「人物」「アニメ」「動物」「自然」といったオンライン上に学習対象が無数に存在する具体物の生成はかなり有用ではありますが、「概念図などの抽象的なもの」「架空の物体」の生成はまだまだ課題があるという印象です。とはいえそう遠くないうちに解決しうる課題ではあるので、引き続き抽象的・模式図的な生成については引き続き研究していきます。
Vidnoz:キャラクター動画、動画化、ナレーション、BGM
Live2Dのようにアバターやキャラクターを音声に合わせて口パクさせるツールは多くあります。先ほどご紹介したRunwayにもキャラクターにリップシンク(音声に合わせて口の動きを同期させる機能)はありますが、オリジナルのキャラクター、特にその中でもディフォルメが強いキャラクターを「顔」として認識することが非常に難しいようです。これはImage to Videoの機能でも同様のことが言え、例えば「石像の顔の目を動かす」というプロンプトを入れたとしても、石像の顔で「目」や「口」といったパーツを特定できない、ということが起きます。
アバター生成AIでは、HeyGenというツールが非常に有名ですが「人間の顔であることがわかる画像」においてのアバター化は非常に有用です。しかしながら前述のRunwayと同様に「抽象化されたキャラクターの顔」は認識が難しいようで、キャラアバターについては生成が難しいという弱みがあります。
今回使ったVidnozというツールは「ディフォルメキャラクターによるアバター生成」を唯一実現できたツールです。パーツ位置や目の造形などのチューニングは必要でしたが、十分実用レベルといえると思います。
一方で「動画を手軽に生成する」「自然なナレーションとチューニング」では前回使ったVrewに軍配が上がります。Vrewではナレーション原稿からシーン割を自動にしてくれたり、ナレーション台本と字幕表示の内容を分けることができたり「ナレーションから動画を作る」という点において非常に有用なツールでしたが、Vidnozではシーン割と字幕表示を分けることができず、手動でシーン割をしていくことになります。手動で調整することが非常に多く、PowerPointの制作と同等の手間がかかるとイメージいただけるとよいかと思います。「業務工数の削減」という点では、あまり効率的ではないかもしれません。
今回は商用利用可の無料版での生成だったため、有料版にした場合には、ナレーションについてはもう少し修正できそうなことやもう少し機能が増えるとのことなので、次回は有料版での生成をしてみたいと思います。
とはいえ、動画生成AIの活用はテーマ次第であり「業務工数を削減する」なのか「高品質な動画や素材がほしい」のかによって、選ぶべきツールが変わってくるのだと思います。特に後者は、プロンプトの言い回しやチューニングによる経験値が生成結果に大きく作用します。意味のある一貫性のある動画作りのシーンをどのように生成していくのかが今後の鍵になりそうです。