動画生成AIとは
動画生成AIとは
動画生成AIとは、テキスト、画像、音声などの入力データを基に、AIが自動的に動画を生成する技術を指します。
【主な機能】
-
テキストから動画生成 (Text-to-Video): テキストプロンプトを入力するだけで、内容に応じた動画を自動生成します。
-
画像から動画生成 (Image-to-Video): 静止画から動画を生成し、写真やデザイン素材に動きを加えます。
-
動画編集 (Video-to-Video): 既存の動画をリミックスし、新たな表現を実現します。
OpenAIの「Sora」とGoogleの「Veo 2」の発表(2024年12月)
2024年12月、待望のSora(OpenAI)とVeo 2(Google)という動画生成AIが相次いで発表され、更に動画生成AIに対して全世界から注目が集まっています。
動画生成AIの仕組み
動画生成AIの仕組み
静止画1枚の画像生成AIとは異なり、動画生成AIは時間軸に沿って連続的に生成する必要があります。そしてこの各フレーム間の自然さを保つために、より複雑なモデルやアルゴリズムが使用されているのが動画生成AIです。
【動画生成AIモデルの例】
動画生成AIモデルには、様々な技術が使用されており、それぞれ強みがあります。詳しくはAI総研のリンク先で詳しく解説しているので、ご参照ください🙌
モデル名 | 概要 | 解説リンク |
---|---|---|
生成的敵対ネットワーク(GAN) | 2つのニューラルネットワークが競い合うことで、リアルなデータ(画像や動画)を生成する仕組み。 | 敵対的生成ネットワーク(GAN)とは? |
拡散モデル(Diffusion Models) | ノイズを加えてから徐々に元に戻す過程を通じて、高精度な生成を行うモデル。画像・動画生成で注目。 | Diffusionモデルとは? |
変換器(Transformer Models) | 時系列や文脈を捉える力に優れ、動画シーンの連続性を学習するのに適している構造。 | Transformerとは? |
強化学習(Reinforcement Learning) | 試行錯誤を通じて最適な行動を学ぶ手法で、動画編集の最適化などに活用。 | 強化学習とは? |
オートエンコーダ(Autoencoders) | 入力データを圧縮・再構成する構造で、映像のノイズ除去や特徴抽出に用いられる。 | オートエンコーダとは? |
おすすめの動画生成AI
ここでは、おすすめの動画生成AIを紹介します。各サービスの特徴や料金プランを比較し、自分に合ったものを選ぶ参考にしてください。
Sora(OpenAI)とVeo(Google)の比較
Sora(OpenAI)とVeo(Google)の比較
代表的な動画生成AIであるSora(OpenAI)とVeo 2(Google)の比較を以下に示します。
サービスの詳細はリンク先を参照してください。
項目 | Sora (OpenAI) | Veo 2 (Google) |
---|---|---|
主要機能 | 画像アニメーション: 静止画の動画化。 動画リミックス: 既存の動画+新たな要素・エフェクト ストーリーボード機能: シーン・キャラクターの動きを指定。 ブレンド機能: 異なる動画を組み合わせる。 スタイルプリセット: 特殊効果。 |
- 最大4Kの高解像度 - 長尺動画生成 (最大60秒以上) - マスク編集(特定の部分を編集・修正)機能 - SynthIDによる透かし機能 |
料金体系 | - Plusプラン (月額20ドル): ・720p解像度 ・月50本まで ・最大15秒 - Proプラン (月額200ドル): ・1080p解像度 ・月500本まで ・最大20秒 |
現在詳細は未公表。一般公開時に料金体系が発表される予定。 |
利用制限 | - 月単位の生成クレジット更新 - アクセス集中時に遅延可能性 - 一度に最大4つのバリエーション生成可能 |
- 一般公開未定 - ウェイトリスト登録で最新情報受け取れる |
【詳細情報】
Sora:OpenAI公式
Veo2:Google公式
Sora (OpenAI)
出典:OpenAI
Soraは、OpenAIの動画生成AIです。2024年2月に発表され、12月に一般公開されました。
主な機能:
-
テキストから動画生成: ユーザーが入力したテキストプロンプトに基づき、動画を生成。
-
画像アニメーション: 静止画を動画に変換。
-
動画リミックス: 既存の動画に要素やエフェクトを加える機能。
-
ストーリーボード機能: シーンやキャラクターごとに詳細な指示を設定する機能。
料金プラン:
プラン | 月額料金 | 最大解像度 | 生成可能な動画数 | 特徴 |
---|---|---|---|---|
ChatGPT Plus | $20 | 720p | 月に最大50本 | 追加料金なしで利用可能 |
ChatGPT Pro | $200 | 1080p | 無制限 | 優先的な生成速度と高度な編集機能が利用可能 |
関連ソース:
Veo 2 (Google)
出典:Google
Veo 2は、Googleが開発した動画生成AIです。
2024年12月16日に発表されました。
主な機能:
-
最大4K解像度: 高解像度での動画生成が可能です。
-
多様なスタイル対設定: 実写風・アニメ調の動画等スタイルの設定ができます。
-
カメラ指示: レンズの焦点距離・被写界深度など、撮影の専門用語・効果を理解し反映させることができます。
-
長尺動画の生成: 最大60秒動画拡張が可能です。
-
SynthIDウォーターマーク: 電子透かし「SynthID」を動画に埋め込んでおり、フェイクコンテンツの拡散を防止しています。
料金プラン:
順番待ちリストへの登録が必要
具体的な料金プランについては、現時点で公式な情報が公開されていないため、詳細が発表され次第、最新情報を確認することをおすすめします。 利用は、Google Labsの「VideoFX」で順番待ちリストへの登録が必要です。
Runway
Runway Genシリーズは、Runway社が提供する最新の動画生成AIモデルです。
Runwayは、クレジット制を採用しており、追加購入も可能です。
料金プラン
プラン | 月額料金 | クレジット/月 | 主な特徴 |
---|---|---|---|
Free | 無料 | 125 | 一部のAI Magic Toolsへのアクセスが可能。クレジット数、エクスポート解像度、ストレージ容量、利用可能なプロジェクト数に制限あり。 |
Standard | $15 | 625 | 高解像度エクスポート、Runwayロゴの削除、100GBのアセットストレージ、無制限のビデオ編集プロジェクトが利用可能。 |
Pro | $35 | 2,250 | 500GBのアセットストレージ、さらに多くの機能が利用可能。 |
Unlimited | $95 | 無制限 | Proプランの全機能に加え、無制限のビデオ生成、高速モードの利用が可能。 |
【関連記事】
Runwayを使用した動画生成については以下の記事で実際の生成事例やプロンプトの書き方等、詳しく解説しています。
- Runway Gen-4とは?使い方、料金、Gen-3との違いを徹底解説!
- Runway Gen-3とは?使い方や料金、プロンプトのコツを徹底解説!
- Runway Gen-2とは?使い方や料金、商用利用の可否を解説
Heygen
Heygen
HeyGenは、アバター動画を簡単に作成できる動画生成AIです。
日本語を含む40以上の言語に対応しており、300種類以上のテンプレートと100種類以上のAIアバターを利用できるのが特徴です。
料金プラン
プラン | 月額料金 | クレジット/月 | 主な特徴 |
---|---|---|---|
Free | 無料 | 1 | 基本機能のみ。作成した動画にはHeyGenのロゴが表示。 |
Creator | $29 | 15 | プレミアムボイス・自動キャプション機能が利用可能。Instant Avatarを3体まで作成可能。 |
Business | $80 | 30 | 4K解像度でのレンダリングが可能。Instant Avatarを3体まで作成可能。 |
Enterprise | 要問い合わせ | カスタマイズ | APIアクセスや高度なサポートを提供。個別のニーズに合わせたカスタマイズが可能。 |
Heygenを使用した動画生成については以下の記事でより詳しく解説しています。
Pika 2.0
出典:Pika
Pika 2.0は中国初の動画生成AIでPika 1.0/1.5からアップグレードしたモデルとしてリリースされています。
料金プラン
プラン名 | 月額料金 | クレジット/月 | 主な特徴 |
---|---|---|---|
BASIC | 無料 | 150 | Pika 1.5へのアクセスが可能。生成速度は通常。追加クレジットの購入やウォーターマークなしの動画生成は不可。商用利用不可。 |
STANDARD | $10 | 700 | Pika 1.5および1.0へのアクセスが可能。生成速度は高速。追加クレジットの購入が可能。ウォーターマークなしの動画生成が可能。商用利用可。 |
PRO | $35 | 2,000 | Pika 2.0、1.5、1.0へのアクセスが可能。生成速度はより高速。追加クレジットの購入が可能。ウォーターマークなしの動画生成が可能。商用利用可。 |
FANCY | $95 | 6,000 | Pika 2.0、1.5、1.0へのアクセスが可能。生成速度は最速。追加クレジットの購入が可能。ウォーターマークなしの動画生成が可能。商用利用可。 |
無料で使える動画生成AI
次に、無料でも利用できる動画生成AIを紹介します。これらのサービスは、商用利用には制限がある場合がありますので、注意が必要です。
-
Luma Dream Machine
Luma AIが提供する動画生成AIサービスで、テキストや画像から高品質な5秒間の動画を高速に生成できます。無料プランでは月に30回の動画生成が可能ですが、商用利用には有料プランへの登録が必要です。 -
KLING
中国の快手が提供するサービスで、テキスト・画像から数秒間の動画生成が可能です。サイトは英語・中国語表示ですが、プロンプトは日本語の対応もしています。現在、料金プランは明示されておらず、テストリリース中なのでおすすめできます。➡︎KLING
-
HaiperAI
Haiper AIの無料プランでは1日あたり10作品の生成が可能ですが、商用利用には有料のProプラン(月額8ドル)への加入が必要です。➡︎HaiperAI
-
InVideo
5000以上の事前作成されたテンプレートを使用してAI動画生成ができます。無料プランでは、10分/週の生成が可能で、商用利用も可能です。日本語のテキスト表示や50以上の言語への翻訳に対応していますが、無料プランでは透かしマークが入ります。➡︎InVideo
-
Opus Clip
無料プランでは透かしマークの削除や編集はできませんが、月に60分まで動画生成が可能です。商用利用可能で、日本語にも対応しています。
ローカルで使える動画生成AIモデルとは?
クラウドサービスを使わず、手元のPCで動画生成AIを利用したいというニーズが高まっています。実は、現在では複数の高性能な動画生成AIモデルがオープンソースとして公開されており、ローカル環境(自宅やオフィスのPC)でも本格的な動画生成が可能になっています。
とくに人気のモデルには、以下のようなものがあります:
モデル名 | 特徴と用途 | 導入元・リンク |
---|---|---|
Mochi 1 | Genmo.ai製。100億パラメータの大規模モデル。ComfyUIと組み合わせてローカル実行可能。リアルな動きが特徴。 | 導入ガイド |
HunyuanVideo | Tencent製。130億パラメータのマルチモーダルモデル。高い圧縮率と画像・動画対応。ComfyUIで動作。 | 導入ガイド |
Open-Sora | OpenAIのSoraに着想を得た完全オープンソースモデル。最大15秒の動画生成や画像→動画に対応。 | GitHub |
Wan 2.1 | Alibaba製。小型GPUでも動作可能な効率重視モデル。画像からのアニメーションや簡易編集にも対応。 | arXiv論文 |
これらのモデルの多くは、ComfyUIというノードベースのインターフェースを使って操作でき、専門知識がなくても比較的スムーズに利用できます。
💡 ローカル利用に必要な構成(例)
項目 | 推奨スペック例 |
---|---|
GPU | NVIDIA RTX 4070 以上、VRAM 12GB以上 |
RAM | 16GB以上 |
ストレージ | 高速SSD |
ソフトウェア | Python 3.8+, PyTorch, CUDA, ComfyUIなど |
クラウド利用が制限される環境や、データの秘匿性が求められる企業用途にも適しており、今後さらに普及が進むと考えられます。
動画生成AIの活用事例
では、動画生成AIはどのような場面で利用されているのでしょうか。
ここではその具体的な活用事例を紹介します。
ビジネス・エンタメ
トイザらス
Toys "R" Us has released the first OpenAI SORA generated brand commercial
— Allen T. (@Mr_AllenT) June 25, 2024
The use of generative AI in commercial work is here. pic.twitter.com/rfbHC3NQRD
米国の玩具大手トイザらスは、OpenAIの「Sora」を活用して広告動画を制作しました。動画では、1930年代初頭の創業者チャールズ・ラザラス氏の若き姿をAIで再現していますが、この広告は炎上してしまいました。特に「不自然さ」に対する批判が多く寄せられましたが、それと同時に、動画生成AIが注目を集めていることを示す一例ともなりました。
【参照】
Watch the story of a dream come true: The creation of Toys"R"Us and Geoffrey the Giraffe
KDDI
出典:KDDI
KDDIは人気CM「三太郎」シリーズを生成AIでアニメーションリメイクし、新たなCMとして配信しました。
また特設サイトでは新年にやりたいこと等の入力内容に応じて三太郎CMソングに乗せたオリジナル三太郎MVを作成するサービスを提供しました。
【参照】
10年目のau三太郎、生成AIでリメイクしたお正月CMを放映、自分だけの三太郎MVを創れる特設サイトも公開
PARCO
出典:PARCO
PARCOは、広告制作において実際のモデルを起用せず、撮影も行わず、音楽、画像、動画、ナレーションなどすべてを生成AI技術を用いて作成しました。この広告は非常に高い完成度を誇り、その創造性が評価され、AMDアワードで「優秀賞」を受賞しています。
【参照】
「HAPPY HOLIDAYS広告」が、AMDアワードで「優秀賞」を受賞
個人利用
Soraの生成事例
"macro shot of a leaf showing tiny trains moving through its veins"
— Aditya Ramesh (@model_mechanic) February 17, 2024
Video generated by Sora pic.twitter.com/dT3AMrkWoV
"fly through tour of a museum with many paintings and sculptures and beautiful works of art in all styles"
— Tim Brooks (@_tim_brooks) March 2, 2024
Video generated by #Sora pic.twitter.com/SNr9dQZe5V
詳細なミクロの世界から、ダイナミックな美術館ツアーの動画まで幅広く様々な動画を作成できるのがSoraの強みですね🙌。
Veoの生成事例
Google's new video generation model is called Veo 2, and if these hand-picked examples are real, they look better than anything I've gotten out of SORA...https://t.co/mLXe8dG9X3 pic.twitter.com/3qYqW53uvX
— Marques Brownlee (@MKBHD) December 16, 2024
I've been using #Veo2 for the past week now, and all I can say is... it's flippin' nuts! 🛹🐿️🎅 pic.twitter.com/GSGMRVXU86
— Daniel Smith (@motionphi) December 21, 2024
Xでは「Soraよりも良い」とVeoを高評価する投稿が多く見られました。
特にそのリアルな出力と高解像度でも不自然性さが見当たらない点に驚きの声が上がっています。
その他
You can now act out entire movies in your living room and turn them into epic cinematic shots using free & local AI tools!
— Mickmumpitz (@mickmumpitz) December 12, 2024
To prove it, I created this short film👇 pic.twitter.com/1iedfBsQfd
こちらでは自宅で演技をする投稿者の動きに合わせ、AIで映画のような世界観を作り変えています。
この技術は「モーションアクト」といい、主にモーションキャプチャ(モーキャプ)技術を使用して、キャラクターや人間の動作をデジタル化するための手法を指します。具体的には、リアルタイムで人間の動きを追跡し、そのデータをデジタルキャラクターや3Dアニメーションに適用する技術です。
Kwai just dropped the bomb on video generation.
— Angry Tom (@AngryTomtweets) June 9, 2024
But how do they compare to their closest rival?
Kwai: Kling vs. OpenAI: Sora
1. POV footage of an ant navigating the inside of an ant nest pic.twitter.com/9V0iW4Rtz1
こちらでは、SoraとKlingを同じプロンプトで比較した結果がツリー形式で投稿されていますので、ぜひご覧ください。Soraはリアルな生成に優れている一方、Klingはアジア人の人物生成に強みを持っています。動画生成AIにはそれぞれ異なる特徴があるため、複数のツールを活用し、理想的な結果が得られるモデルを選ぶことをおすすめします。
動画生成AIのメリット・デメリット
メリット
1.動画制作のハードルを大幅に下げた
2024年以前ではご自身が将来、動画を作成するとは考えていなかった方が大半なのではないでしょうか。
動画作成の知識がなくてもプロンプトを入力するだけで、誰でも一瞬で動画制作が可能になった事は大きなメリットです。
- コスト削減
ここでは動画制作に付随する、時間的・費用的なコスト両方の削減を指しています。
フリーランスや小規模の事業者でも手軽に動画を生成できるので、定量的にも明確なメリットを享受出来るようになりました。
デメリット
- 著作権者への配慮
現在、多くのAIモデルは、どのデータが学習に使用されたのかを公開していません。
米国のようにフェアユース(著作物を合法的に利用できる範囲)が適用されることもありますが、この解釈は国や地域によって異なります。
実際に米国ではAI生成画像モデルに対する訴訟がありました。動画生成AIでも同様の問題が発生する可能性があり、特に商用利用時にはリスクが高まります。
【参照】
Artist And Activist Karla Ortiz On The Battle To Preserve Humanity In Art
- 動画制作者の仕事はより高いレベルが求められる
動画制作においてAIの役割が拡大することで、従来必要だった撮影スタッフや基本編集者が淘汰される可能性も目を向ける必要があります。
これは、動画生成AIに限らず、他分野でも同様の変化が起きるため、労働市場全体に影響を与えるリスクは全員が自分ごととして考える必要があるでしょう。
【関連記事】
AI時代のリスキリングとは?その重要性と具体的なステップを解説
- まだ技術的な進歩が必要
SoraとVeo2を筆頭に動画生成AIはここ1年の間で急速な成果を上げていますが、完璧な技術ではありません。
【残っている課題例】
- 生成結果の一貫性
- 動画フレーム間の動きの滑らかさや自然さが、人間の目には不自然に映る場合も多いです。特に、複雑な動きや感情表現が必要なシーンに見られます。
- 生成時間の制約
- 現在最高レベルのモデル(例: Sora、Veo 2)でも、1分程度の動画生成が限界です。
- リソースの制約
- 高品質な動画生成には、大量の計算資源が必要で、一般ユーザーが生成するには制限があります。
動画生成AIの将来展望
動画生成AIの将来展望
技術面
技術面ではフレーム間の連続性の確保と計算負荷の軽減、より自然な動きと表現が可能になることが期待されます。
社会的影響と課題
動画生成AIが精度を高めるほど、フェイクコンテンツの作成リスクも増大します。
AI利用に関するガイドラインや法整備、そして利用者一人ひとりがそれを理解する事が重要です。
【関連記事】
商業利用の拡大
現在マーケティングやオンライン学習の分野において動画コンテンツの需要の拡大が顕著です。
そのため今後は動画生成AIを活用した商業利用の登場も増えてくるでしょう。ここでは考えられる一例を紹介します。
- マーケティング広告
- 個々のユーザーニーズに基づいた動画広告の生成・配信
- 広告作成コストの削減
- 多文化・多言語への対応
- エンタメ
- 短期間でのプロトタイプ制作/シナリオの視覚化
- ライブ配信中に動的な背景やキャラクターを生成
例: 可能性として、NetflixやDisneyなどの大手が独自の社内用動画生成AIを開発・使用するようになることも考えられます。
- 教育分野
- VRやARとの連携で、没入型の学習体験
- その場でシミュレーション動画を作成・使用
よくある質問
-
動画生成AIはどのようなデータを使って動画を作成するのですか?
- 動画生成AIは、テキスト、画像、音声などの入力データを基に動画を生成します。このようなユーザーが指定した内容に基づいて、様々なスタイルや効果を持った動画を自動で制作することができます。
-
SoraとVeo 2の違いは何ですか?
- Soraは特にリアルな動画生成に強みを持ち、短尺の動画(最大20秒)を得意としています。一方、Veo 2は最大4K解像度で、より長尺(最大60秒)の動画生成が可能で、特に高解像度の映像やカメラ操作に優れています。詳しくはSora(OpenAI)とVeo(Google)の比較セクションをご覧ください。
-
動画生成AIの商用利用は可能ですか?
- はい、商用利用が可能ですが、使用するツールによって異なります。多くの動画生成AIは有料プランで商用利用を許可しており、無料プランでは商用利用が制限されていることがあります。利用規約を確認することが重要です。
動画生成AIの注目トピックス(随時更新)
動画生成AIの最新情報や注目トピックスを随時更新していきます。新しい技術やサービスの登場、重要なイベントなどをチェックしてみてください。
日付 | 出来事 | 詳細 | 関連サービス |
---|---|---|---|
2024年2月 | 「Sora」発表 | OpenAIが「Sora」の存在を初めて公表。 | Sora (OpenAI) |
2024年5月 | 「Veo」発表 | Google I/Oで発表。テキストから高品質な動画を生成可能。 | Veo (Google) |
2024年12月4日 | 「Veo 2」プライベートプレビュー提供開始 | Googleが「Veo」の後継バージョンを開発者向けに限定公開。 | Veo 2 (Google) |
2024年12月9日 | 「Sora」正式リリース | ChatGPT Plus / Pro ユーザー向けに提供開始。 | Sora (OpenAI) |
2025年1月 | 「Movie Gen」発表 | Metaが発表。テキストから最大16秒の高品質動画を生成するマルチモーダルAI。 | Movie Gen (Meta) |
2025年4月15日 | 「Veo 2」一般提供開始 | Gemini Advanced(有料ユーザー)向けに動画生成が可能に。Whisk Animateや編集機能も搭載。 | Veo 2 (Google) |
2025年5月(予定) | 「Movie Gen」Instagram統合開始 | MetaがMovie GenをInstagramに統合予定。一般ユーザーが直接動画生成可能に。 | Movie Gen (Meta) |
まとめ
動画生成AIは、テキストや画像、音声などを基に自動で動画を作成する技術です。OpenAIの「Sora」やGoogleの「Veo 2」が2024年に登場し、注目を集めています。これらのAIは、リアルな映像生成や高解像度での長尺動画制作に強みを持ち、商業利用や教育分野での活用が期待されています。ただし、技術的な限界や著作権問題も残るため、今後の進展が求められます。