AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

動画生成AIとは?無料サービスの紹介、ローカル利用、使い方まで徹底解説

動画生成AIとは

動画生成AIとは
動画生成AIとは

動画生成AIとは、テキスト、画像、音声などの入力データを基に、AIが自動的に動画を生成する技術を指します。

主な機能

  1. テキストから動画生成 (Text-to-Video): テキストプロンプトを入力するだけで、内容に応じた動画を自動生成します。

  2. 画像から動画生成 (Image-to-Video): 静止画から動画を生成し、写真やデザイン素材に動きを加えます。

  3. 動画編集 (Video-to-Video): 既存の動画をリミックスし、新たな表現を実現します。

OpenAIの「Sora」とGoogleの「Veo 2」の発表(2024年12月)

2024年12月、待望のSora(OpenAI)とVeo 2(Google)という動画生成AIが相次いで発表され、更に動画生成AIに対して全世界から注目が集まっています。

動画生成AIの仕組み

動画生成AIの仕組み
動画生成AIの仕組み

静止画1枚の画像生成AIとは異なり、動画生成AIは時間軸に沿って連続的に生成する必要があります。そしてこの各フレーム間の自然さを保つために、より複雑なモデルやアルゴリズムが使用されているのが動画生成AIです。

動画生成AIモデルの例

動画生成AIモデルには、様々な技術が使用されており、それぞれ強みがあります。詳しくはAI総研のリンク先で詳しく解説しているので、ご参照ください🙌

モデル名 概要 解説リンク
生成的敵対ネットワーク(GAN) 2つのニューラルネットワークが競い合うことで、リアルなデータ(画像や動画)を生成する仕組み。 敵対的生成ネットワーク(GAN)とは?
拡散モデル(Diffusion Models) ノイズを加えてから徐々に元に戻す過程を通じて、高精度な生成を行うモデル。画像・動画生成で注目。 Diffusionモデルとは?
変換器(Transformer Models) 時系列や文脈を捉える力に優れ、動画シーンの連続性を学習するのに適している構造。 Transformerとは?
強化学習(Reinforcement Learning) 試行錯誤を通じて最適な行動を学ぶ手法で、動画編集の最適化などに活用。 強化学習とは?
オートエンコーダ(Autoencoders) 入力データを圧縮・再構成する構造で、映像のノイズ除去や特徴抽出に用いられる。 オートエンコーダとは?

おすすめの動画生成AI

ここでは、おすすめの動画生成AIを紹介します。各サービスの特徴や料金プランを比較し、自分に合ったものを選ぶ参考にしてください。

Sora(OpenAI)とVeo(Google)の比較

Sora(OpenAI)とVeo(Google)の比較
Sora(OpenAI)とVeo(Google)の比較

代表的な動画生成AIであるSora(OpenAI)とVeo 2(Google)の比較を以下に示します。
サービスの詳細はリンク先を参照してください。

項目 Sora (OpenAI) Veo 2 (Google)
主要機能 画像アニメーション: 静止画の動画化。
動画リミックス: 既存の動画+新たな要素・エフェクト
ストーリーボード機能: シーン・キャラクターの動きを指定。
ブレンド機能: 異なる動画を組み合わせる。
スタイルプリセット: 特殊効果。
- 最大4Kの高解像度
- 長尺動画生成 (最大60秒以上)
- マスク編集(特定の部分を編集・修正)機能
- SynthIDによる透かし機能
料金体系 - Plusプラン (月額20ドル):
・720p解像度
・月50本まで
・最大15秒
- Proプラン (月額200ドル):
・1080p解像度
・月500本まで
・最大20秒
現在詳細は未公表。一般公開時に料金体系が発表される予定。
利用制限 - 月単位の生成クレジット更新
- アクセス集中時に遅延可能性
- 一度に最大4つのバリエーション生成可能
- 一般公開未定
- ウェイトリスト登録で最新情報受け取れる

【詳細情報】

Sora:OpenAI公式 

Veo2:Google公式

Sora (OpenAI)

Sora (OpenAI)
出典:OpenAI

Soraは、OpenAIの動画生成AIです。2024年2月に発表され、12月に一般公開されました。

主な機能:

  • テキストから動画生成: ユーザーが入力したテキストプロンプトに基づき、動画を生成。

  • 画像アニメーション: 静止画を動画に変換。

  • 動画リミックス: 既存の動画に要素やエフェクトを加える機能。

  • ストーリーボード機能: シーンやキャラクターごとに詳細な指示を設定する機能。

料金プラン:

プラン 月額料金 最大解像度 生成可能な動画数 特徴
ChatGPT Plus $20 720p 月に最大50本 追加料金なしで利用可能
ChatGPT Pro $200 1080p 無制限 優先的な生成速度と高度な編集機能が利用可能

関連ソース:

Veo 2 (Google)

Veo 2 (Google)
出典:Google

Veo 2は、Googleが開発した動画生成AIです。
2024年12月16日に発表されました。

主な機能:

  • 最大4K解像度: 高解像度での動画生成が可能です。

  • 多様なスタイル対設定: 実写風・アニメ調の動画等スタイルの設定ができます。

  • カメラ指示: レンズの焦点距離・被写界深度など、撮影の専門用語・効果を理解し反映させることができます。

  • 長尺動画の生成: 最大60秒動画拡張が可能です。

  • SynthIDウォーターマーク: 電子透かし「SynthID」を動画に埋め込んでおり、フェイクコンテンツの拡散を防止しています。

料金プラン:

順番待ちリストへの登録が必要
順番待ちリストへの登録が必要

具体的な料金プランについては、現時点で公式な情報が公開されていないため、詳細が発表され次第、最新情報を確認することをおすすめします。 利用は、Google Labsの「VideoFX」で順番待ちリストへの登録が必要です。

Runway

https://youtu.be/nByslCkykj8

Runway Genシリーズは、Runway社が提供する最新の動画生成AIモデルです。
Runwayは、クレジット制を採用しており、追加購入も可能です。

料金プラン

プラン 月額料金 クレジット/月 主な特徴
Free 無料 125 一部のAI Magic Toolsへのアクセスが可能。クレジット数、エクスポート解像度、ストレージ容量、利用可能なプロジェクト数に制限あり。
Standard $15 625 高解像度エクスポート、Runwayロゴの削除、100GBのアセットストレージ、無制限のビデオ編集プロジェクトが利用可能。
Pro $35 2,250 500GBのアセットストレージ、さらに多くの機能が利用可能。
Unlimited $95 無制限 Proプランの全機能に加え、無制限のビデオ生成、高速モードの利用が可能。

関連記事

Runwayを使用した動画生成については以下の記事で実際の生成事例やプロンプトの書き方等、詳しく解説しています。

Heygen

Heygen
Heygen

HeyGenは、アバター動画を簡単に作成できる動画生成AIです。
日本語を含む40以上の言語に対応しており、300種類以上のテンプレートと100種類以上のAIアバターを利用できるのが特徴です。

料金プラン

プラン 月額料金 クレジット/月 主な特徴
Free 無料 1 基本機能のみ。作成した動画にはHeyGenのロゴが表示。
Creator $29 15 プレミアムボイス・自動キャプション機能が利用可能。Instant Avatarを3体まで作成可能。
Business $80 30 4K解像度でのレンダリングが可能。Instant Avatarを3体まで作成可能。
Enterprise 要問い合わせ カスタマイズ APIアクセスや高度なサポートを提供。個別のニーズに合わせたカスタマイズが可能。

Heygenを使用した動画生成については以下の記事でより詳しく解説しています。

Pika 2.0

Pika 2.0
出典:Pika

Pika 2.0は中国初の動画生成AIでPika 1.0/1.5からアップグレードしたモデルとしてリリースされています。

料金プラン

プラン名 月額料金 クレジット/月 主な特徴
BASIC 無料 150 Pika 1.5へのアクセスが可能。生成速度は通常。追加クレジットの購入やウォーターマークなしの動画生成は不可。商用利用不可。
STANDARD $10 700 Pika 1.5および1.0へのアクセスが可能。生成速度は高速。追加クレジットの購入が可能。ウォーターマークなしの動画生成が可能。商用利用可。
PRO $35 2,000 Pika 2.0、1.5、1.0へのアクセスが可能。生成速度はより高速。追加クレジットの購入が可能。ウォーターマークなしの動画生成が可能。商用利用可。
FANCY $95 6,000 Pika 2.0、1.5、1.0へのアクセスが可能。生成速度は最速。追加クレジットの購入が可能。ウォーターマークなしの動画生成が可能。商用利用可。

無料で使える動画生成AI

次に、無料でも利用できる動画生成AIを紹介します。これらのサービスは、商用利用には制限がある場合がありますので、注意が必要です。

  • Luma Dream Machine
    Luma AIが提供する動画生成AIサービスで、テキストや画像から高品質な5秒間の動画を高速に生成できます。無料プランでは月に30回の動画生成が可能ですが、商用利用には有料プランへの登録が必要です。

    ➡︎Luma Dream Machine

  • KLING
    中国の快手が提供するサービスで、テキスト・画像から数秒間の動画生成が可能です。サイトは英語・中国語表示ですが、プロンプトは日本語の対応もしています。現在、料金プランは明示されておらず、テストリリース中なのでおすすめできます。

    ➡︎KLING

  • HaiperAI
    Haiper AIの無料プランでは1日あたり10作品の生成が可能ですが、商用利用には有料のProプラン(月額8ドル)への加入が必要です。

    ➡︎HaiperAI

  • InVideo
    5000以上の事前作成されたテンプレートを使用してAI動画生成ができます。無料プランでは、10分/週の生成が可能で、商用利用も可能です。日本語のテキスト表示や50以上の言語への翻訳に対応していますが、無料プランでは透かしマークが入ります。

    ➡︎InVideo

  • Opus Clip
    無料プランでは透かしマークの削除や編集はできませんが、月に60分まで動画生成が可能です。商用利用可能で、日本語にも対応しています。

    ➡︎Opus Clip

ローカルで使える動画生成AIモデルとは?

クラウドサービスを使わず、手元のPCで動画生成AIを利用したいというニーズが高まっています。実は、現在では複数の高性能な動画生成AIモデルがオープンソースとして公開されており、ローカル環境(自宅やオフィスのPC)でも本格的な動画生成が可能になっています。

とくに人気のモデルには、以下のようなものがあります:

モデル名 特徴と用途 導入元・リンク
Mochi 1 Genmo.ai製。100億パラメータの大規模モデル。ComfyUIと組み合わせてローカル実行可能。リアルな動きが特徴。 導入ガイド
HunyuanVideo Tencent製。130億パラメータのマルチモーダルモデル。高い圧縮率と画像・動画対応。ComfyUIで動作。 導入ガイド
Open-Sora OpenAIのSoraに着想を得た完全オープンソースモデル。最大15秒の動画生成や画像→動画に対応。 GitHub
Wan 2.1 Alibaba製。小型GPUでも動作可能な効率重視モデル。画像からのアニメーションや簡易編集にも対応。 arXiv論文

これらのモデルの多くは、ComfyUIというノードベースのインターフェースを使って操作でき、専門知識がなくても比較的スムーズに利用できます。

💡 ローカル利用に必要な構成(例)

項目 推奨スペック例
GPU NVIDIA RTX 4070 以上、VRAM 12GB以上
RAM 16GB以上
ストレージ 高速SSD
ソフトウェア Python 3.8+, PyTorch, CUDA, ComfyUIなど

クラウド利用が制限される環境や、データの秘匿性が求められる企業用途にも適しており、今後さらに普及が進むと考えられます。

動画生成AIの活用事例

では、動画生成AIはどのような場面で利用されているのでしょうか。
ここではその具体的な活用事例を紹介します。

ビジネス・エンタメ

トイザらス

米国の玩具大手トイザらスは、OpenAIの「Sora」を活用して広告動画を制作しました。動画では、1930年代初頭の創業者チャールズ・ラザラス氏の若き姿をAIで再現していますが、この広告は炎上してしまいました。特に「不自然さ」に対する批判が多く寄せられましたが、それと同時に、動画生成AIが注目を集めていることを示す一例ともなりました。

【参照】

Watch the story of a dream come true: The creation of Toys"R"Us and Geoffrey the Giraffe

KDDI

KDDIの事例
出典:KDDI

KDDIは人気CM「三太郎」シリーズを生成AIでアニメーションリメイクし、新たなCMとして配信しました。
また特設サイトでは新年にやりたいこと等の入力内容に応じて三太郎CMソングに乗せたオリジナル三太郎MVを作成するサービスを提供しました。

【参照】

10年目のau三太郎、生成AIでリメイクしたお正月CMを放映、自分だけの三太郎MVを創れる特設サイトも公開

PARCO

PARCOの事例
出典:PARCO

PARCOは、広告制作において実際のモデルを起用せず、撮影も行わず、音楽、画像、動画、ナレーションなどすべてを生成AI技術を用いて作成しました。この広告は非常に高い完成度を誇り、その創造性が評価され、AMDアワードで「優秀賞」を受賞しています。

【参照】

「HAPPY HOLIDAYS広告」が、AMDアワードで「優秀賞」を受賞

個人利用

Soraの生成事例

詳細なミクロの世界から、ダイナミックな美術館ツアーの動画まで幅広く様々な動画を作成できるのがSoraの強みですね🙌。

Veoの生成事例

Xでは「Soraよりも良い」とVeoを高評価する投稿が多く見られました。
特にそのリアルな出力と高解像度でも不自然性さが見当たらない点に驚きの声が上がっています。

その他

こちらでは自宅で演技をする投稿者の動きに合わせ、AIで映画のような世界観を作り変えています。
この技術は「モーションアクト」といい、主にモーションキャプチャ(モーキャプ)技術を使用して、キャラクターや人間の動作をデジタル化するための手法を指します。具体的には、リアルタイムで人間の動きを追跡し、そのデータをデジタルキャラクターや3Dアニメーションに適用する技術です。

こちらでは、SoraとKlingを同じプロンプトで比較した結果がツリー形式で投稿されていますので、ぜひご覧ください。Soraはリアルな生成に優れている一方、Klingはアジア人の人物生成に強みを持っています。動画生成AIにはそれぞれ異なる特徴があるため、複数のツールを活用し、理想的な結果が得られるモデルを選ぶことをおすすめします。


動画生成AIのメリット・デメリット

メリット

1.動画制作のハードルを大幅に下げた

2024年以前ではご自身が将来、動画を作成するとは考えていなかった方が大半なのではないでしょうか。

動画作成の知識がなくてもプロンプトを入力するだけで、誰でも一瞬で動画制作が可能になった事は大きなメリットです。

  1. コスト削減

ここでは動画制作に付随する、時間的・費用的なコスト両方の削減を指しています。

フリーランスや小規模の事業者でも手軽に動画を生成できるので、定量的にも明確なメリットを享受出来るようになりました。

デメリット

  1. 著作権者への配慮
    現在、多くのAIモデルは、どのデータが学習に使用されたのかを公開していません。

米国のようにフェアユース(著作物を合法的に利用できる範囲)が適用されることもありますが、この解釈は国や地域によって異なります。

実際に米国ではAI生成画像モデルに対する訴訟がありました。動画生成AIでも同様の問題が発生する可能性があり、特に商用利用時にはリスクが高まります。

【参照】
Artist And Activist Karla Ortiz On The Battle To Preserve Humanity In Art

  1. 動画制作者の仕事はより高いレベルが求められる
    動画制作においてAIの役割が拡大することで、従来必要だった撮影スタッフや基本編集者が淘汰される可能性も目を向ける必要があります。

これは、動画生成AIに限らず、他分野でも同様の変化が起きるため、労働市場全体に影響を与えるリスクは全員が自分ごととして考える必要があるでしょう。

【関連記事】

AI時代のリスキリングとは?その重要性と具体的なステップを解説

  1. まだ技術的な進歩が必要

SoraとVeo2を筆頭に動画生成AIはここ1年の間で急速な成果を上げていますが、完璧な技術ではありません。

残っている課題例

  • 生成結果の一貫性
    • 動画フレーム間の動きの滑らかさや自然さが、人間の目には不自然に映る場合も多いです。特に、複雑な動きや感情表現が必要なシーンに見られます。
  • 生成時間の制約
    • 現在最高レベルのモデル(例: Sora、Veo 2)でも、1分程度の動画生成が限界です。
  • リソースの制約
    • 高品質な動画生成には、大量の計算資源が必要で、一般ユーザーが生成するには制限があります。

動画生成AIの将来展望

動画生成AIの将来展望
動画生成AIの将来展望

技術面

技術面ではフレーム間の連続性の確保と計算負荷の軽減、より自然な動きと表現が可能になることが期待されます。

社会的影響と課題

動画生成AIが精度を高めるほど、フェイクコンテンツの作成リスクも増大します。
AI利用に関するガイドラインや法整備、そして利用者一人ひとりがそれを理解する事が重要です。

【関連記事】

商業利用の拡大

現在マーケティングやオンライン学習の分野において動画コンテンツの需要の拡大が顕著です。
そのため今後は動画生成AIを活用した商業利用の登場も増えてくるでしょう。ここでは考えられる一例を紹介します。

  1. マーケティング広告
  • 個々のユーザーニーズに基づいた動画広告の生成・配信
  • 広告作成コストの削減
  • 多文化・多言語への対応
  1. エンタメ
  • 短期間でのプロトタイプ制作/シナリオの視覚化
  • ライブ配信中に動的な背景やキャラクターを生成
    例: 可能性として、NetflixやDisneyなどの大手が独自の社内用動画生成AIを開発・使用するようになることも考えられます。
  1. 教育分野
  • VRやARとの連携で、没入型の学習体験
  • その場でシミュレーション動画を作成・使用

よくある質問

  1. 動画生成AIはどのようなデータを使って動画を作成するのですか?

    • 動画生成AIは、テキスト、画像、音声などの入力データを基に動画を生成します。このようなユーザーが指定した内容に基づいて、様々なスタイルや効果を持った動画を自動で制作することができます。
  2. SoraとVeo 2の違いは何ですか?

    • Soraは特にリアルな動画生成に強みを持ち、短尺の動画(最大20秒)を得意としています。一方、Veo 2は最大4K解像度で、より長尺(最大60秒)の動画生成が可能で、特に高解像度の映像やカメラ操作に優れています。詳しくはSora(OpenAI)とVeo(Google)の比較セクションをご覧ください。
  3. 動画生成AIの商用利用は可能ですか?

    • はい、商用利用が可能ですが、使用するツールによって異なります。多くの動画生成AIは有料プランで商用利用を許可しており、無料プランでは商用利用が制限されていることがあります。利用規約を確認することが重要です。

動画生成AIの注目トピックス(随時更新)

動画生成AIの最新情報や注目トピックスを随時更新していきます。新しい技術やサービスの登場、重要なイベントなどをチェックしてみてください。

日付 出来事 詳細 関連サービス
2024年2月 「Sora」発表 OpenAIが「Sora」の存在を初めて公表。 Sora (OpenAI)
2024年5月 「Veo」発表 Google I/Oで発表。テキストから高品質な動画を生成可能。 Veo (Google)
2024年12月4日 「Veo 2」プライベートプレビュー提供開始 Googleが「Veo」の後継バージョンを開発者向けに限定公開。 Veo 2 (Google)
2024年12月9日 「Sora」正式リリース ChatGPT Plus / Pro ユーザー向けに提供開始。 Sora (OpenAI)
2025年1月 「Movie Gen」発表 Metaが発表。テキストから最大16秒の高品質動画を生成するマルチモーダルAI。 Movie Gen (Meta)
2025年4月15日 「Veo 2」一般提供開始 Gemini Advanced(有料ユーザー)向けに動画生成が可能に。Whisk Animateや編集機能も搭載。 Veo 2 (Google)
2025年5月(予定) 「Movie Gen」Instagram統合開始 MetaがMovie GenをInstagramに統合予定。一般ユーザーが直接動画生成可能に。 Movie Gen (Meta)

まとめ

動画生成AIは、テキストや画像、音声などを基に自動で動画を作成する技術です。OpenAIの「Sora」やGoogleの「Veo 2」が2024年に登場し、注目を集めています。これらのAIは、リアルな映像生成や高解像度での長尺動画制作に強みを持ち、商業利用や教育分野での活用が期待されています。ただし、技術的な限界や著作権問題も残るため、今後の進展が求められます。

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
AI総合研究所サービス紹介資料
監修者
坂本 将磨

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!