AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

OpenAI Soraとは?いつから使える?その使い方や料金体系を解説!

この記事のポイント

  • 「Sora」はテキスト入力からリアルな動画を生成可能なAIで、物理世界をシミュレーションする領域に到達しています。
  • OpenAIから発表されたこの革新的な動画生成AIは、数行の文章に基づいて瞬時に写実的かつハイクオリティな映像を作り出します。
  • 絵画のような画像からシミュレーションゲーム風の映像まで、幅広いジャンルの動画生成が可能です。
  • Soraの登場は世界中の生成AI関係者を驚かせましたが、同時にディープフェイクやフェイクニュースの懸念も生んでいます。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

現実世界をシーミュレートするAI技術が進化し、今、私たちはその最前線に立つ新たなAI「Sora」の存在を知りました。

OpenAIから発表されたこの革新的な動画生成AIは、テキストの入力だけで写実的かつハイクオリティな動画を生成可能です。
絵画のような画像からシミュレーションゲーム風の映像まで、Soraは数行の文章に基づいて瞬時に映像を作り出し、世界中の生成AI関係者を驚かせています。
<br<しかし、この技術はその可能性の豊かさと同時に、ディープフェイクやフェイクニュースの懸念も生んでいます。

本記事では、「Sora」とは何か、その驚くべき機能と実用化に向けた課題について、詳細にわたり解説していきます。

2024年5月14日に発表された最新モデル、ChatGPT4o(GPT-4o)について詳しく知りたい方は、こちらの記事もご覧ください⬇️
ChatGPT-4o(GPT4 omni)とは?使い方、料金など詳細を徹底解説!

【動画生成AI】OpenAIが発表したSoraとは

2024年2月15日(米国時間)に突如「OpenAI」から発表された動画生成AIの「Sora」は、テキストから最長1分間の動画を生成できるAIです。
驚くことなかれ、その性能の高さには開いた口が塞がりません。

Sora_IMG.2
Soraのイメージ*

まるで映画のワンシーンのような映像、実際のゲームのプレイ画面のような、映像が、 「たった数行の文章」で作れます。
まだ一般公開されてはいませんが、公式サイトやX(旧Twitter)で話題となっています。

「OpenAIに殴られました」
「画像生成AIで作った二次元の画像を組み合わせて動画を作ろうとしていた昨日までの努力が水の泡になってしまった...」

などなど、生成AI関係者は昼夜問わず大騒ぎです。

Soraの衝撃

ここでは、OpenAIが出している公式のレポートの冒頭を見てみましょう。
文末の「Our results...」に注目です。

Sora_TechReport.1
Sora TechReport (参考:OpenAI)

「我々の結果は、ビデオ生成モデルのスケーリングが、物理世界の汎用シミュレータを構築するための有望な道であることを示唆している。」


つまり、「物理世界をシミュレーション」 するのだと。
冒頭では映画やゲーム画面ような動画を作れると記載しましたが、OpenAIが見据えているビジョンはもっと先にあるようです。
例えば、NVIDIAの研究者・科学者であり、OpenAIの元社員のジム・ファン氏の「Sora」に向けられたコメントを見てみます。

もし、Soraが、今までの画像生成AIのような、おもしろい画像や綺麗な動画出すだけのオモチャと思ってるなら、考え直してほしい。
Soraはデータ駆動型の物理エンジンです。それは多くの世界、現実のものや空想上のもののシミュレーションです。

引用した部分は、約1500文字ある内容の内、冒頭の300文字だけですが、「Sora」が単なる「コンテンツ作成ツール」に止まらない可能性を秘めていることがわかります。


Soraの核心技術

「Sora」は、既存の技術を組み合わせて構成されています。
有識者によると、特段新しい技術を使っているわけではなく、計算量とデータ量を上げていった結果、このようなクオリティの映像が生み出されたようです。

OpenAIの公式レポートでは以下の様に説明されています。

大規模にトレーニングすると、多くの興味深い創発的な機能を示すことがわかりました。
これらの機能により、Sora は物理世界から人、動物、環境の一部の側面をシミュレートできます。
これらの特性は、3D、オブジェクトなどに対する明示的な誘導バイアスなしで出現します。これらは純粋にスケールの現象です。

Sora_TechReport.2

Soraの主軸の技術は以下の3つです。


1.動画データを潜在空間に圧縮した後、Transformerがトークンとして利用できる「時空潜在パッチ」に変換する技術

2.Transoformerベースのビデオ拡散モデル

3.DALLE3を用いた高精度なビデオキャプショニングによるデータセット作成


Soraの驚くべき機能

「開いた口が塞がりません。」と冒頭に記載しましたが、筆者が思わずびっくりした機能を抜粋して紹介していきます。

【Case.1】動画同士をシームレスに結合

ここに、2つのシーンがあります。
一方には、古代遺跡の上空をドローンが滑空する様子がうつされています。

Sora_IMG.3

他方では、蝶々が海中を優雅に飛び回っています。

Sora_IMG.4

すでに、どちらの映像も物理法則の支配するこの世界では、「ありえない」様子が映されています。
この二つの動画を「Sora」に与えれば、一つの動画として結合してくれるようです。

さて、この二つのカオスに対して、どのような一つの秩序を与えることができるのでしょうか。
結合した動画がこちらになります。


代遺跡を探索するかのように舞っていた「ドローン」は、一瞬にして「蝶々」に生成変化してしまいました。
そして、遺跡の奥深くへと、カメラのアングルが変化した瞬間、もう既にそこには海中が広がっています。

このシームレスさ。この驚き。
違和感がなさすぎて、いつ海中に変化したのかがよくわかりませんでした。

被写体やシーンの構図が全く異なる二つの映像に、シームレスなトランジションを与えてしまう技術には驚きを隠せません。

【Case.2】動画の展開を自在に生成

Sora_Case.2

また、ある動画に対して、その「前後の映像」を違和感なく作成することが可能です。

例えば、以下の動画をご覧ください。

これらの3つの動画は、すべて異なる始まり方をしていますが、終わり方はどれも同じです。

つまり、ここでは「最後の終わる部分の動画」がまずあり、そこに至るまでの映像を「Sora」が作っています。
現時点では違和感のある繋ぎ方になっていますが、ワンクリック程度の操作で作ってくれるのはすごいです。

映像の作り方が根本から変わりそうな予感がしますね。
また、この方法を活用して動画の前後両方を拡張し、ループ動画も作ることが可能です。

【Case.3】デジタル世界のシミュレート

シミュレーション(ゲーム空間)のシミュレーションも軽々やってのけるのが「Sora」です。
その一例として、ゲーム「Minecraft」のシミュレートが紹介されています。

ここでは、ただデジタル空間が再現されているだけではありません。FPS(一人称視点)まで、ほとんど完璧と言っていい水準で再現されています。

先ほどの2つの事例は、「Sora」に動画をアップロードしていましたが、この事例はテキスト入力のみです。
ゲーム「Minecraft」についてのプロンプトを入力すれば、このような動画が瞬時に生成されるようです。

【Case.4】Video to Videoの応用

「Case.1」でみた動画同士を繋げる技術を使って、「Case.3」でみたMinecraftのゲーム画面と、実写のオートバイの映像を繋げることもできます。

Minecraftの低解像度の森林が開け、写実風な世界へと変化していきます。

「低解像度なデジタル風」と「写実風」という異なるものの間に、ザラザラしたCGの表面が入ることで、見事にシームレスにつながっています。

そして、実写オートバイの映像は、Minecraftの一人称視点として翻訳されています。
そろそろ、顎が外れそうです。。


Soraの使い方と実際の使用例

びっくりするような事例を紹介してきましたが、基本的な使い方についても説明していきます。

|Text-To-Video

そもそも、「Sora」は、対話型AIと呼ばれるものの一種です。

そのため、文章や言葉をAIに渡し、それに応じて動画を出力してくれるといったラリー風に進んでいきます。
そこで渡す文章や言葉のことを、一般的に、「プロンプト」と呼ぶことになっています。

プロンプトとは、動画についての説明文のことです。具体例を見ていきます。


例えばこの動画の「プロンプト」は、以下のようになります。

 赤いウールのニット、バイク、ヘルメットをかぶった 30 歳の宇宙飛行士の冒険を特集した映画予告編。
 青い空、塩の砂漠、映画のようなスタイル、35 mm フィルムで撮影、鮮やかな色。


次の動画はこちらです。

undefined

この動画のプロンプトは、以下のようになります。

カメラは、ニューヨークの美術館の大きなギャラリー内に設置された、1950 年代の SF 映画、ホラー映画、ニュース、静止画、1970 年代のホームコメディなど、
さまざまな番組を映している大量のビンテージ テレビの周りを回転します


テキストから画像や動画を生成する技術は今までにもありました。
しかし、今までのどの技術よりも、クオリティが高く、長尺(1分間)の映像を出力できます。
また、ユーザーが入力する情報(プロンプト)を詳細に補完する技術(GPT)も搭載されているようです。
これによって、ユーザーのプロンプトに正確に従う高品質のビデオを生成できるようになるようです。
もちろん、動画に限らず、画像も生成することができます。

OpenAI.img

この画像のプロンプトは、以下のようになります。

リンゴの木の下にいる若いトラのデジタル アート。豪華なディテールを備えたマット ペイント スタイルで描かれています。

|Image-to-Video、Video-to-Video

Soraはテキスト入力に限りません。画像、動画、音声など、様々な方法で情報を受け取ることができます。

先ほどの「Case.1」と「Case.2」は、まさに「入力された動画」を元に「新しい動画」を生成していました。

また、テキストと画像や動画を組み合わせることも可能なようです。

例えば、下の画像と、テキストを渡すだけで、静止画でしかなかった画像が動画へと生まれ変わります。
Sora img

「華麗で歴史的なホールで、大規模な津波がピークに達し、砕け始めます。2 人のサーファーがその瞬間を捉え、巧みに波面を移動します。」

実際の導入事例

まだ公には利用できないSoraですが徐々に企業での利用ケースが報告されています。

トイザらスの事例(ToysRus)

https://www.youtube.com/watch?v=F_WfIzYGlg4

タイトルイメージ:「夢をかなえる物語:トイザらスとキリンのジェフリーの誕生を見る」

トイザらスの創業者であるチャールズ・ラザルスが、1930年代初頭にトイザらスの象徴的なブランドかつ愛すべきマスコットである
「キリンのジェフリー」に抱いた夢を、若き日のチャールズ・ラザルスとして創り上げたときの興奮をイメージして制作されているようです。

SoraだけでなくVFXも組み合わされて制作されているとのことです。音楽や音声とも組み合わさりなんとも素敵な印象を受けますね。

CMコマの一部
CMコマの一部


Soraと他の動画生成AIサービスの比較

Soraと同系統の動画生成AIとの違いについて図にしてみました。

公式リリースされないと分からない部分もありますが、参考にしてみてください。

モデル名 料金 Text to Video Image to Video Video to Video 商用利用
OpenAI Sora 不明 不明
Steve AI 月額23ドルから × ×
Pictory 無料あり / 有料は月額19ドルから × × 明記無し
Runway gen-2 有料は月額15ドルから
Pika 無料あり / 有料は月額10ドルから 有料のみ可
stable video diffusion 無料 ×

Soraの弱点と実用化への課題

「Sora」には様々な課題点やリスクが想定されており、この技術を私たちの社会にとって受け入れるべきかどうかは、一概には言えないのかもしれません。

物理モデルが不正確な場合がある

また、「Sora」は現時点で非現実的で不気味な挙動を起こすことも公開されています。

例えば、以下のプロンプトで作られた動画はとても不気味です。

プロンプト:考古学者は砂漠で一般的なプラスチックの椅子を発見し、細心の注意を払って発掘し、埃を払いました。

この動画は、ソラが椅子を硬い物体としてモデル化することに失敗し、不正確な物理的相互作用を引き起こしている例です。

その他にもガラスの粉砕をうまく表現できないケースなどがあります。

Sora problem case

このように、依然としてSoraにも問題点はあり、解決するための研究が現在も続いています。

安全性の懸念

このような現実を高度に再現する技術が発表されると同時に気になるのが、悪用やフェイクニュースなどです。

こういった懸念に対して、OpenAIはレッドチーム(AIの問題点を研究するチーム)と共に、安全に使用できる措置を模索しています
レッドチームは、 攻撃者側の視点に立ってAIのリスクを調査する専門家集団です。彼ら彼女らの存在は、新しいテクノロジーの有効性をテストしたり、安全性を確保したりするために欠かせません。

また、「Sora」が生み出した映像には、「C2PAメタデータ」が付与される予定です。「C2PAメタデータ」とは、デジタルデータに暗号化されたメタデータを付与し、「いつ・どこで・誰がデータを作ったのか、どんなツールで編集したのか」などの来歴を記録する技術です。


まとめ

この記事では『Sora』についての情報をまとめてきました。

最後には、技術的な障壁や安全性についても紹介しましたが、このような想定されるリスクへの対策を講じて初めて、「Sora」の公式リリースが可能になります。
さて、世界のシミュレーションといえば、物理シミュレーションや、オープンワールドのゲームなど、今までにも数多くのものが作られてきました。
そのような過去の技術と「Sora」が大きく区別される点として挙げられるのは人間の関わり方です。
今までは、人間が手作業で書いたプログラムコードですべてを制御して、世界を再現していましたが、「Sora」は大量の動画を学習させただけです。

また、「Sora」はユーザーからの入力(プロンプト)をただ理解するだけでなく、その指示が物理世界にどのように存在するかも理解しているようです。
OpenaAIは「Soraは現実世界を理解してシミュレーションできるモデルの基盤として機能し、 AGI(汎用人工知能)を達成するための重要なマイルストーンになる と考えています」とコメントしています。
AGIは、さまざまなタスクに対して人間と同様の知識や能力を持ち、独自の学習や問題解決が可能です。
つまり、『Sora』は物語の序章にすぎないということです。
「Sora」では、写実的にも物理シミュレーション的にも整合性が取れている世界認識が示されました。
これは人間が人工知能という形で自身の似姿を生み出す壮大なプロジェクトの第一歩と理解したほうがいいでしょう。

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!