この記事のポイント
- Soraはテキスト入力から最長1分間の高品質動画を生成できるOpenAIの最新AI
- 物理世界のシミュレーションを目指し、リアルな動画生成や映像の結合が可能
- Text-to-Video、Image-to-Video、Video-to-Videoなど多様な入力方式に対応
- 高度な物理シミュレーションや世界認識能力を持ち、AGI実現への重要な一歩
- フェイクニュース等の懸念に対し、安全性確保のための取り組みも進行中
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
現実世界をシミュレートするAI技術が急速に進化し、OpenAIから発表された「Sora」は、その最前線に立つ革新的な動画生成AIです。
OpenAIから発表されたこの革新的な動画生成AIは、テキストの入力だけで写実的かつハイクオリティな動画を生成可能です。
絵画のような画像からシミュレーションゲーム風の映像まで、Soraは数行の文章に基づいて瞬時に映像を作り出し、世界中の生成AI関係者を驚かせています。
<br<しかし、この技術はその可能性の豊かさと同時に、ディープフェイクやフェイクニュースの懸念も生んでいます。
本記事では、「Sora」とは何か、その驚くべき機能と実用化に向けた課題について、詳細にわたり解説していきます。
「AIをマーケティングに活用したいけど、具体的な方法がわからない」とお悩みではありませんか?
AI Marketerなら、効率的なコンテンツ制作と多チャネル展開が簡単に実現できます。
⇒AI Marketerの資料を見てみる
目次
【動画生成AI】OpenAI Soraとは
2024年2月15日(米国時間)に突如「OpenAI」から発表された動画生成AIの「Sora」は、テキストから最長1分間の動画を生成できるAIです。
驚くことなかれ、その性能の高さには開いた口が塞がりません。
Soraのイメージ*
まるで映画のワンシーンのような映像、実際のゲームのプレイ画面のような、映像が、 「たった数行の文章」で作れます。
まだ一般公開されてはいませんが、公式サイトやX(旧Twitter)で話題となっています。
「OpenAIに殴られました」
「画像生成AIで作った二次元の画像を組み合わせて動画を作ろうとしていた昨日までの努力が水の泡になってしまった...」
などなど、生成AI関係者は昼夜問わず大騒ぎです。
Soraの衝撃
ここでは、OpenAIが出している公式のレポートの冒頭を見てみましょう。
文末の「Our results...」に注目です。
Sora TechReport (参考:OpenAI)
「我々の結果は、ビデオ生成モデルのスケーリングが、物理世界の汎用シミュレータを構築するための有望な道であることを示唆している。」
つまり、「物理世界をシミュレーション」 するのだと。
冒頭では映画やゲーム画面ような動画を作れると記載しましたが、OpenAIが見据えているビジョンはもっと先にあるようです。
例えば、NVIDIAの研究者・科学者であり、OpenAIの元社員のジム・ファン氏の「Sora」に向けられたコメントを見てみます。
If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
もし、Soraが、今までの画像生成AIのような、おもしろい画像や綺麗な動画出すだけのオモチャと思ってるなら、考え直してほしい。
Soraはデータ駆動型の物理エンジンです。それは多くの世界、現実のものや空想上のもののシミュレーションです。
引用した部分は、約1500文字ある内容の内、冒頭の300文字だけですが、「Sora」が単なる「コンテンツ作成ツール」に止まらない可能性を秘めていることがわかります。
Sora(OpenAI Sora)の主軸技術
「Sora」は、既存の技術を組み合わせて構成されています。
有識者によると、特段新しい技術を使っているわけではなく、計算量とデータ量を上げていった結果、このようなクオリティの映像が生み出されたようです。
OpenAIの公式レポートでは以下の様に説明されています。
大規模にトレーニングすると、多くの興味深い創発的な機能を示すことがわかりました。
これらの機能により、Sora は物理世界から人、動物、環境の一部の側面をシミュレートできます。
これらの特性は、3D、オブジェクトなどに対する明示的な誘導バイアスなしで出現します。これらは純粋にスケールの現象です。
Soraの主軸の技術は以下の3つです。
1.動画データを潜在空間に圧縮した後、Transformerがトークンとして利用できる「時空潜在パッチ」に変換する技術
2.Transoformerベースのビデオ拡散モデル
3.DALLE3を用いた高精度なビデオキャプショニングによるデータセット作成
(OpenAI Sora)の主要機能
「開いた口が塞がりません。」と冒頭に記載しましたが、筆者が思わずびっくりした機能を抜粋して紹介していきます。
【Case.1】動画同士をシームレスに結合
ここに、2つのシーンがあります。
一方には、古代遺跡の上空をドローンが滑空する様子がうつされています。
他方では、蝶々が海中を優雅に飛び回っています。
すでに、どちらの映像も物理法則の支配するこの世界では、「ありえない」様子が映されています。
この二つの動画を「Sora」に与えれば、一つの動画として結合してくれるようです。
さて、この二つのカオスに対して、どのような一つの秩序を与えることができるのでしょうか。
結合した動画がこちらになります。
"Connecting videos
— Anu Aakash (@anukaakash) February 16, 2024
We can also use Sora to gradually interpolate between two input videos, creating seamless transitions between videos with entirely different subjects and scene compositions." pic.twitter.com/y67n0rN83p
代遺跡を探索するかのように舞っていた「ドローン」は、一瞬にして「蝶々」に生成変化してしまいました。
そして、遺跡の奥深くへと、カメラのアングルが変化した瞬間、もう既にそこには海中が広がっています。
このシームレスさ。この驚き。
違和感がなさすぎて、いつ海中に変化したのかがよくわかりませんでした。
被写体やシーンの構図が全く異なる二つの映像に、シームレスなトランジションを与えてしまう技術には驚きを隠せません。
【Case.2】動画の展開を自在に生成
また、ある動画に対して、その「前後の映像」を違和感なく作成することが可能です。
例えば、以下の動画をご覧ください。
there are lots of creative ways to use Sora. here's one that's really cool: we can extend the same video backward in time multiple different ways, resulting in videos that start different but all have the same ending
— Tim Brooks (@_tim_brooks) February 16, 2024
(also, crashing into the San Francisco sign at the end was… pic.twitter.com/gTtxVFi6BG
これらの3つの動画は、すべて異なる始まり方をしていますが、終わり方はどれも同じです。
つまり、ここでは「最後の終わる部分の動画」がまずあり、そこに至るまでの映像を「Sora」が作っています。
現時点では違和感のある繋ぎ方になっていますが、ワンクリック程度の操作で作ってくれるのはすごいです。
映像の作り方が根本から変わりそうな予感がしますね。
また、この方法を活用して動画の前後両方を拡張し、ループ動画も作ることが可能です。
【Case.3】デジタル世界のシミュレート
シミュレーション(ゲーム空間)のシミュレーションも軽々やってのけるのが「Sora」です。
その一例として、ゲーム「Minecraft」のシミュレートが紹介されています。
This isn't Minecraft folks.
— Ryan Hall (@RyanHallTV) February 18, 2024
This is Sora's generation of Minecraft, which is why the pig walks backward into the void.
Once OpenAI opens this up to the public get ready for a flood of AI Reddit stories with AI Minecraft parkour
TikTok AI video creators are already drooling. pic.twitter.com/HamAjNgHNF
ここでは、ただデジタル空間が再現されているだけではありません。FPS(一人称視点)まで、ほとんど完璧と言っていい水準で再現されています。
先ほどの2つの事例は、「Sora」に動画をアップロードしていましたが、この事例はテキスト入力のみです。
ゲーム「Minecraft」についてのプロンプトを入力すれば、このような動画が瞬時に生成されるようです。
【Case.4】Video to Videoの応用
「Case.1」でみた動画同士を繋げる技術を使って、「Case.3」でみたMinecraftのゲーム画面と、実写のオートバイの映像を繋げることもできます。
really excited by Sora's ability to blend two videos. here's a blend of that minecraft video with motorcycling. so much creative potential for this feature pic.twitter.com/hMOphz3rUO
— Tim Brooks (@_tim_brooks) February 18, 2024
Minecraftの低解像度の森林が開け、写実風な世界へと変化していきます。
「低解像度なデジタル風」と「写実風」という異なるものの間に、ザラザラしたCGの表面が入ることで、見事にシームレスにつながっています。
そして、実写オートバイの映像は、Minecraftの一人称視点として翻訳されています。
そろそろ、顎が外れそうです。。
Sora(OpenAI Sora)の使い方と実際の使用例
びっくりするような事例を紹介してきましたが、基本的な使い方についても説明していきます。
|Text-To-Video
そもそも、「Sora」は、対話型AIと呼ばれるものの一種です。
そのため、文章や言葉をAIに渡し、それに応じて動画を出力してくれるといったラリー風に進んでいきます。
そこで渡す文章や言葉のことを、一般的に、「プロンプト」と呼ぶことになっています。
プロンプトとは、動画についての説明文のことです。具体例を見ていきます。
충격적😱😱 Open AI가 오늘 공개한 동영상 제작툴 Sora
— ⟑𝕣⫧𝜿ℊ⁵ ✧ 케이죠 (@ArtKG5) February 16, 2024
정말 미친 수준입니다.
첨부한 영상은 해당 툴로 만들어진 영상(1080P)입니다.
댓글에 추가 영상
출처 https://t.co/U4LdtAWaty pic.twitter.com/DYO93l4lTY
例えばこの動画の「プロンプト」は、以下のようになります。
赤いウールのニット、バイク、ヘルメットをかぶった 30 歳の宇宙飛行士の冒険を特集した映画予告編。
青い空、塩の砂漠、映画のようなスタイル、35 mm フィルムで撮影、鮮やかな色。
次の動画はこちらです。
undefined
この動画のプロンプトは、以下のようになります。
カメラは、ニューヨークの美術館の大きなギャラリー内に設置された、1950 年代の SF 映画、ホラー映画、ニュース、静止画、1970 年代のホームコメディなど、
さまざまな番組を映している大量のビンテージ テレビの周りを回転します
テキストから画像や動画を生成する技術は今までにもありました。
しかし、今までのどの技術よりも、クオリティが高く、長尺(1分間)の映像を出力できます。
また、ユーザーが入力する情報(プロンプト)を詳細に補完する技術(GPT)も搭載されているようです。
これによって、ユーザーのプロンプトに正確に従う高品質のビデオを生成できるようになるようです。
もちろん、動画に限らず、画像も生成することができます。
この画像のプロンプトは、以下のようになります。
リンゴの木の下にいる若いトラのデジタル アート。豪華なディテールを備えたマット ペイント スタイルで描かれています。
Image-to-Video・Video-to-Video
Soraはテキスト入力に限りません。画像、動画、音声など、様々な方法で情報を受け取ることができます。
先ほどの「Case.1」と「Case.2」は、まさに「入力された動画」を元に「新しい動画」を生成していました。
また、テキストと画像や動画を組み合わせることも可能なようです。
例えば、下の画像と、テキストを渡すだけで、静止画でしかなかった画像が動画へと生まれ変わります。
「華麗で歴史的なホールで、大規模な津波がピークに達し、砕け始めます。2 人のサーファーがその瞬間を捉え、巧みに波面を移動します。」
SORA can animate images pretty amazingly.
— AP (@angrypenguinPNG) February 16, 2024
Prompt: "In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave." pic.twitter.com/rNDB98jTe2
(OpenAI Sora)実際の導入事例
まだ公には利用できないSoraですが徐々に企業での利用ケースが報告されています。
トイザらスの事例(ToysRus)
タイトルイメージ:「夢をかなえる物語:トイザらスとキリンのジェフリーの誕生を見る」
トイザらスの創業者であるチャールズ・ラザルスが、1930年代初頭にトイザらスの象徴的なブランドかつ愛すべきマスコットである
「キリンのジェフリー」に抱いた夢を、若き日のチャールズ・ラザルスとして創り上げたときの興奮をイメージして制作されているようです。
SoraだけでなくVFXも組み合わされて制作されているとのことです。音楽や音声とも組み合わさりなんとも素敵な印象を受けますね。
CMコマの一部
(OpenAI Sora)と他の動画生成AIサービスの比較
Soraと同系統の動画生成AIとの違いについて図にしてみました。
公式リリースされないと分からない部分もありますが、参考にしてみてください。
モデル名 | 料金 | Text to Video | Image to Video | Video to Video | 商用利用 |
---|---|---|---|---|---|
OpenAI Sora | 不明 | ○ | ○ | ○ | 不明 |
Steve AI | 月額23ドルから | ○ | × | × | ○ |
Pictory | 無料あり / 有料は月額19ドルから | ○ | × | × | 明記無し |
Runway gen-2 | 有料は月額15ドルから | ○ | ○ | ○ | ○ |
Pika | 無料あり / 有料は月額10ドルから | ○ | ○ | ○ | 有料のみ可 |
stable video diffusion | 無料 | ○ | ○ | ○ | × |
(OpenAI Sora)の弱点と実用化への課題
「Sora」には様々な課題点やリスクが想定されており、この技術を私たちの社会にとって受け入れるべきかどうかは、一概には言えないのかもしれません。
物理モデルが不正確な場合がある
また、「Sora」は現時点で非現実的で不気味な挙動を起こすことも公開されています。
例えば、以下のプロンプトで作られた動画はとても不気味です。
プロンプト:考古学者は砂漠で一般的なプラスチックの椅子を発見し、細心の注意を払って発掘し、埃を払いました。
Sora-OpenAI text-to-video model that creates min long insanely magical scenes
— Codee Hammad (@CodeeHammad) February 15, 2024
Chair Archeology.
Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.#soraArt #OpenAI pic.twitter.com/qFUMTQMWgR
この動画は、ソラが椅子を硬い物体としてモデル化することに失敗し、不正確な物理的相互作用を引き起こしている例です。
その他にもガラスの粉砕をうまく表現できないケースなどがあります。
このように、依然としてSoraにも問題点はあり、解決するための研究が現在も続いています。
安全性の懸念
このような現実を高度に再現する技術が発表されると同時に気になるのが、悪用やフェイクニュースなどです。
こういった懸念に対して、OpenAIはレッドチーム(AIの問題点を研究するチーム)と共に、安全に使用できる措置を模索しています
レッドチームは、 攻撃者側の視点に立ってAIのリスクを調査する専門家集団です。彼ら彼女らの存在は、新しいテクノロジーの有効性をテストしたり、安全性を確保したりするために欠かせません。
また、「Sora」が生み出した映像には、「C2PAメタデータ」が付与される予定です。「C2PAメタデータ」とは、デジタルデータに暗号化されたメタデータを付与し、「いつ・どこで・誰がデータを作ったのか、どんなツールで編集したのか」などの来歴を記録する技術です。
まとめ
この記事では『Sora』についての情報をまとめてきました。
最後には、技術的な障壁や安全性についても紹介しましたが、このような想定されるリスクへの対策を講じて初めて、「Sora」の公式リリースが可能になります。
さて、世界のシミュレーションといえば、物理シミュレーションや、オープンワールドのゲームなど、今までにも数多くのものが作られてきました。
そのような過去の技術と「Sora」が大きく区別される点として挙げられるのは人間の関わり方です。
今までは、人間が手作業で書いたプログラムコードですべてを制御して、世界を再現していましたが、「Sora」は大量の動画を学習させただけです。
また、「Sora」はユーザーからの入力(プロンプト)をただ理解するだけでなく、その指示が物理世界にどのように存在するかも理解しているようです。
OpenaAIは「Soraは現実世界を理解してシミュレーションできるモデルの基盤として機能し、 AGI(汎用人工知能)を達成するための重要なマイルストーンになる と考えています」とコメントしています。
AGIは、さまざまなタスクに対して人間と同様の知識や能力を持ち、独自の学習や問題解決が可能です。
つまり、『Sora』は物語の序章にすぎないということです。
「Sora」では、写実的にも物理シミュレーション的にも整合性が取れている世界認識が示されました。
これは人間が人工知能という形で自身の似姿を生み出す壮大なプロジェクトの第一歩と理解したほうがいいでしょう。