2025-01-20

【動画生成AI】Veo2とは？主な特徴や使い方、料金体系を徹底解説！

この記事のポイント

この記事では、動画生成AI「Veo 2」の機能と活用法について説明しています。
テキストプロンプトから最大4K解像度で長尺動画の生成が可能な点を特徴としています。
物理法則や映画撮影技術に対応し、品質と制御の面で従来の動画生成モデルを超えています。
Veo 2と他の動画生成モデルの比較で、総合評価とプロンプトへの忠実さにおいて優れている結果が示されています。

監修者プロフィール

坂本将磨

フォローする

Microsoft MVP・AIパートナー。LinkX Japan株式会社代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

革新的な動画生成AI「Veo 2」について知りたいと思いませんか？
Veo 2はテキストプロンプトをもとに、最大4Kでの高品質な動画や、数分単位の長尺動画を生成することができ、現実世界の物理法則や多様な視覚スタイルに基づいた映像を生み出します。
加えて、映画撮影用語への対応やハルシネーションの抑制など、他の動画生成モデルを凌駕する機能を有しており、これまでの動画制作における枠を超えた可能性を秘めています。

本記事では、Veo 2の特徴から使い方、実際に生成されたデモ動画までを包括的にご紹介し、いかにしてVeo 2が今後の動画制作に革命をもたらすかを探ります。

AIモデル (Imagen 3とGemini)

Veo2とは

Veo 2は、Google DeepMindが開発した最先端の動画生成AIです。テキストプロンプトから最大4Kの高品質な動画や、数分単位の長尺動画(従来の動画生成AIに比べて)が生成可能で、従来の動画制作の常識を覆す可能性を秘めています。

Veo 2の最大の特徴は、ユーザーが入力したテキストを正確に理解し、その内容に基づいて動画を自動生成することです。
現実世界の物理法則や多様な視覚スタイルをシミュレートし、プロンプトのニュアンスやトーンまで捉えることで、シンプルかつ複雑な指示にも忠実に応えます。

また、Googleは長年にわたるAI研究の集大成としてVeo 2を開発し、「品質と制御の再定義」と位置付けています。

他の主要な動画生成モデルとの比較評価においても、Veo 2は動画の品質とプロンプトへの忠実さで最高レベルの結果を達成しています。

下のグラフは、Veo 2と他の動画生成モデル（Meta Movie Gen, Kling v1.5, Minimax, Sora Turbo）を比較したものです。

Veo2のベンチマーク結果

これらのグラフから、Veoは「総合評価」と「プロンプトへの忠実度」の両方において、他の主要な動画生成モデルよりも優れていると言えます。

Veo 2の特徴

Veo 2は、これまでの動画生成AIの常識を覆す、数々の革新的な特徴を備えています。

このセクションでは、Veo 2が誇る高画質・高精細な動画生成能力、長時間動画生成、リアルな表現力、物理法則の理解、映画撮影用語への対応、そしてハルシネーションの抑制について詳しく解説します。

高画質・高精細な動画生成 (最大4K)

Veo 2は、最大4Kの高画質・高精細な動画を生成することができます。

これは、従来の動画生成AIと比較して、圧倒的な画質を誇ります。細部まで鮮明に描かれた映像は、見る者を魅了するでしょう。

長時間動画生成 (数分)

Veo 2は、数分間の長時間動画を生成することが可能です。

従来の動画生成AIの多くは数十秒程度の短い動画しか生成できなかったため、これは大きな進歩です。長いストーリーを表現できるようになり、動画制作の幅が大きく広がります。

リアルな表現力

Veo 2は、非常にリアルな表現力を持っています。人物の表情や動き、物体の質感など、細部まで現実世界のように表現することができます。

細かな表情の変化: 喜び、悲しみ、驚きなど、人間の複雑な感情を表情に反映させることができます。
自然な動き: 歩く、走る、踊るといった動作を、違和感なく表現します。
リアルな質感: 金属の光沢、水の流れ、炎の揺らめきなど、様々な物質の質感をリアルに再現します。

物理法則の理解

Veo 2は、物理法則を理解し、それを動画生成に反映させることができます。

例えば、重力に従って物が落下したり、水が波立ったりといった、現実世界で起こる物理現象を自然に表現することができます。

映画撮影用語への対応

Veo 2は、「ドリーズーム」や「タイムラプス」など、映画撮影で用いられる専門用語を理解し、その指示に従った動画を生成することができます。

これにより、映画監督のような、よりクリエイティブな動画制作が可能になります。

例:
「ドリーズームで被写体に迫る」
「タイムラプスで花の開花を撮影」
「ドローンで空撮」

ハルシネーションの抑制

Veo 2は、ハルシネーション（幻覚）の発生を抑制する技術が組み込まれています。
これにより、プロンプトに忠実で、より一貫性のある動画を生成することができます。

Veo 2の仕組み

Veo 2は、Googleの最先端AI技術を駆使して、テキストプロンプトから高品質な動画を生成します。

このセクションでは、Veo 2の根幹を支えるAIモデル、テキストプロンプトの解釈方法、そして動画の構成について詳しく解説します。

AIモデル (Imagen 3とGemini)

Veo 2は、Googleの最先端の画像生成AIモデルである「Imagen 3」と、大規模言語モデル「Gemini」を組み合わせた、強力なAIモデルを基盤としています。

Imagen 3: 高品質な画像を生成する役割を担い、動画の各フレームを生成します。
Gemini: テキストプロンプトを解釈し、動画全体のストーリーや構成を理解する役割を担います。

これらのAIモデルが連携することで、テキストから高品質な動画を生成することが可能になります。

Veo 2を支える基盤技術

Veo 2は、以下の技術を含む、多様な基盤技術の上に構築されています。

Generative Query Network (GQN): 3Dシーンの理解と生成に貢献
DVD-GAN: 高品質な動画生成を可能に
Imagen-Video: テキストから動画を生成する技術基盤を提供
Phenaki: 長く、一貫性のある動画生成を実現
WALT: テキスト、画像、動画を統合的に扱うモデル
VideoPoet: 大規模言語モデルを用いた動画生成
Lumiere: 空間と時間の両方で一貫性のある動画生成

これらの技術は、それぞれ異なる強みを持ち、Veo 2の高度な動画生成能力を支えています。

テキストプロンプトの解釈

Veo 2は、Geminiの高度な自然言語処理能力により、ユーザーが入力したテキストプロンプトを正確に解釈します。
単語の意味だけでなく、文脈やニュアンスまで理解することで、プロンプトに忠実な動画を生成します。

具体的には、以下のような解釈を行います。

キーワードの抽出: プロンプトに含まれる重要なキーワードを抽出します。
文脈の理解: キーワード同士の関係性や、文章全体の文脈を理解します。
ニュアンスの把握: 「明るい」「暗い」「穏やか」「激しい」といった、言葉の持つニュアンスを把握します。

動画の構成

Veo 2は、テキストプロンプトに基づいて、動画の構成を自動的に決定します。
シーンの切り替え、カメラワーク、登場人物の動きなど、動画全体の流れを自然に演出します。

シーンの切り替え: プロンプトの内容に応じて、適切なタイミングでシーンを切り替えます。
カメラワーク: 「ズームイン」「パン」「ティルト」など、多様なカメラワークを駆使して、動画に動きを与えます。
登場人物の動き: プロンプトで指示された動作を、キャラクターに自然に実行させます。

Veo 2の使い方

Veo2は、Google Labsの「VideoFX」というツール上で利用可能です。

ただし、現時点ではVideoFXへアクセスするにはウェイトリストに登録後、承認される必要があります。

ウェイトリストへの登録方法

VideoFXのサイトへアクセス
画面上部の、「順番待ちリストに登録する」をクリック
次のようなGoogleフォームが表示されるので、必要項目を全て入力し、送信します。
これでウェイトリストへの登録は完了です。

実際の使い方

Veo2の料金体系

Veo2はまだ開発段階であり、正式な料金プランは発表されていません。
同じくGoogle Labsのサービスである「ImageFX」および「MusicFX」が無料開放されていることを考慮すると、Veo2も無料で利用できるようになると推察されます。

Veo 2のデモ動画

Googleは、最新の動画生成AI「Veo 2」の性能を示すデモ動画をYouTube上で公開しています。これらの動画は、テキストプロンプトから生成されたとは思えないほど、高品質かつ自然な映像となっています。

ここでは、その中から4つの動画を抜粋し、その内容をご紹介します。

水中に飛び込むダックスフンド

顕微鏡を覗く女性

車のスピードメーターと車窓の映像

浮き輪に乗って遊んでいる犬

まとめ

本記事では、Google DeepMindが開発した最新の動画生成AI「Veo 2」について解説しました。Veo 2は、テキストプロンプトから最大4Kの長尺動画を生成できる、革新的なAIです。その特徴は、ユーザーの指示を正確に理解し、現実世界の物理法則や多様な視覚スタイルを反映した、高品質な動画を生成できることです。また、映画制作で用いられる専門用語にも対応し、ハルシネーションを抑えた自然な映像を実現しています。

さらに、他の主要な動画生成モデルとの比較評価においても、Veo 2は「総合評価」と「プロンプトへの忠実さ」の両方で最高レベルの評価を獲得しています。本記事では、Veo 2の仕組みや使い方、デモ動画などを通して、その優れた性能と可能性をご紹介しました。Veo 2は、広告、映画、教育、アートなど、様々な分野で活用され、動画制作の未来を大きく変えることが期待されています。