AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

ImageFX(Imagen3)とは?機能概要や使い方、商用利用について解説

この記事のポイント

  • Imagen3は自然言語入力から高精細な画像を生成する最新モデル
  • GeminiやImageFX経由で無料で利用可能
  • テキストレンダリング機能により画像内に正確なテキストを挿入可能
  • エクスプレッシブチップス機能でプロンプトの影響力を可視化
  • SynthID技術で生成画像に電子透かしを埋め込み、安全性を確保

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

Googleが開発した最新の画像生成AI「Imagen3」が注目を集めています。
2024年5月のGoogle I/Oで発表されたImagen3は、高精細な画像生成能力とテキストレンダリング機能を特徴とし、ついにGeminiやImageFXサービスを通じて無料で利用可能になりました。

本記事では、Imagen3の概要、特徴、使用方法、そして「エクスプレッシブチップス」などの革新的な機能について詳しく解説します。
また、SynthID技術による安全性確保や商用利用の可能性についても触れ、この先進的なツールがクリエイティブな作業にもたらす変革の可能性を探ります。

Imagen3とは

「Imagen3」はGoogleが提供する画像生成AIモデルです。「Imagen3」の情報がオープンにされたのは、2024年の5月。Googleが毎年開催しているカンファレンス「Google I/O」にて発表されました。

Google I/O
Google I/O

「画像の詳細さが増していること」「テキストのレンダリング能力が強化されていること」「悪用防止のための“電子透かし”にも対応していること」などなど、数々のバージョンアップした機能が紹介されましたが、リリースはまだ先ということで、その実用化が待ち望まれていました。そして、その三ヶ月後の8月末に、Googleが提供する「Gemini 」や「ImageFX」といったサービス上で「Imagen3」が使えるようになっています。

「Gemini」...Google DeepMindによって開発されたマルチモーダル大規模言語モデルのこと。チャットボットとして使用できるユーザーインターフェースを備えている。

「ImageFX」…「AI Test Kitchen」として公開されている各種AIサービスの内の一つ。「ImageFX」に加えて、「MusicFX」や「VideoFX」などがある。「AI Test Kitchen」とは、Google が保有する最新の AI テクノ ロジーを試したり、そのフィードバックを共有したりできるプラットフォームのこと。

「Imagen3」…画像生成AIモデルのこと。「ImageFX」や「Gemini」は、「Imagen3」というAIに対して、イ ンターフェースやその他の機能を搭載したサービスのこと。「Imagen3」だけでは、インターフェースが無いので、使用できない。

実際に使ってみればわかるように、「Imagen3」の機能はカンファレンスでの発表通りです。
以下は、「Imagen3」の公式ページが公開しているものですが、
画像内にテキストを表示させることや、高精細な画像を作ることなどが可能になっていることが伺えます。

1.テキストレンダリング

Imagen3の例.1
左画像のプロンプト:「A single comic book panel of a boy and his father on a grassy hill, staring at the sunset. A speech bubble points from the boys mouth and says: The sun will rise again. Muted, late 1990s coloring style」 / 右画像のプロンプト:「A photograph of a stately library entrance with the words “Central Library” carved into the stone」
Google DeepMindより

「A speech bubble points from the boys mouth and says: 」という形式の書き込みによって、画像に吹き出し内のセリフが反映されています。

2.高精細な画像

Imagen3の例.2
プロンプト:「A view of a person’s hand as they hold a little clay figurine of a bird in their hand and sculpt it with a modeling tool in their other hand. You can see the sculptors scarf. Their hands are covered in clay dust. A Marco DSLR image highlighting the texture and craftsmanship.」
Google DeepMindより

粘土の質感や手のシワなど細部に至るまで再現されていることがわかります。

本記事執筆時点におけるリリース状況では、このクオリティの画像を、誰でも無料で作ることができます。
物は試し、早速使い方を見ていきましょう!


Imagen3の使い方

こちらのURLを選択してみてください。すると、「ImageFX」のページに遷移します。
https://aitestkitchen.withgoogle.com/tools/image-fxhttps://aitestkitchen.withgoogle.com/tools/image-fx

1.ログインして操作画面を表示させる

以下のような画面が表示されているかと思いますが、こちらは操作画面ではありません。
右上の「Sign with Google」を選択し、ログインすることで操作画面に移ることができます。

ログイン画面
「ImageFX」のトップ画面。


ちなみに、この画面の真ん中に表示されている画像は、「ImageFX」の生成例です。右下の丸いボタンのようなものを選択すれば、プロンプトやシード値が表示されます。
ログイン画面.2
トップ画面。右下のボタンを選択することでプロンプトやシード値を表示させることができる。

「シード値」...生成された画像に対して割り当てられる数字のこと。この数字をコピーして使うことで、コピー元の画像と類似したスタイルの画像を生成することができる。

「Sign with Google」を選択して手続きを進めていきます。
利用規約への同意などが求められるので、一読の上、次に進めていきましょう。

Sign in画面
「Sign in」の画面

手続きを進めれば、以下のような操作画面が登場するはずです。こちらの画面が「ImageFX」の操作画面です。
操作画面
「ImageFXの操作画面」


2.画像を出力する

黄色い枠
黄色い枠内でプロンプトの入力をすることができる

画面左側の黄色の枠に言葉を入力してみましょう。言葉を入力すれば、黄色の枠内の右下に「作成」というボタンが表示されます。
このボタンを押すことで、プロンプトに沿って画像が出力されます。

例えば、「blue sky」と入力して「作成」を押すと、以下のような「本物の空の写真画像」が出力されました。
出力例.1
プロンプト:「Blue Sky」で画像を出力する


出力例.2
プロンプト:「Blue Sky」での生成例


ちなみに、プロンプトを何も入力しない状態の時には、「作成」のボタンではなく 「I`m Feeling Lucky」というボタンになっています。
このボタンを押せば、ランダムでプロンプトを自動生成してくれます。プロンプトが思いつかない時や、試しで生成したい時などには便利ですね。

例として、以下のようなプロンプトが生成されます。
出力例.3
「I`m Feeling Lucky」によるプロンプトの例:「Close-up photo of a spider spinning its web, showcasing the intricate details and delicate threads , with an emphasis on the textures and colors of the web」

黄色の枠内にはまだ気になる機能が搭載されています。下にご注目ください。「もっと生成」の後に「35mm film」など、いくつかの単語の候補が並んでいます。
これらのいくつかの単語を選択すれば、プロンプトに追加されていきます。

そして、「もっと生成」を選択すれば、単語の候補がシャッフルされて、別の候補が出てくる仕組みになっています。

試しに「35mm film」と「dramatic」という単語を選択して生成してみましたが、先ほどの「blue sky」だけのプロンプトと比べて雰囲気が大きく変わりました。
青空と一口にいっても、雲の形や光の入り方、コントラストの妙など様々です。

こういった機能があることで、自分が想像もしていなかった画像を生み出すことや、プロンプトを練り上げる時のサポートとしても使えそうです。

出力例.4
プロンプト:「Blue sky、35mm film、dramatic」

いかがでしたでしょうか。
上述した点を踏まえておけば「ImageFX」を使いこなしていくことができるでしょう。

さて、次はこの使用感を踏まえた上で、「ImageFX( ≒ Imagen3)の特徴について説明をしていきます。


「ImageFX( ≒ Imagen3)」の価値/特徴

先ほどの紹介で、公式ページを引用したように、出力される画像の精度やテキストレンダリングを紹介しました。
他社がリリースする画像生成AIと比較しても、これらの機能はとても優れています。

また、Googleがこのクオリティの画像生成AIをほとんど無料で使い放題にしてくれている点が何よりすごい点ですね。
Googleは「Imagen3」のリリース以前から、「Gemini」という生成AIのプラットフォームを提供していましたが、そこに「Imagen3」が搭載されることで、AI関係のほぼ全てがGoogleで揃います。Googleユーザーにとっては、嬉しい内容かもしれません。

さて、これ以降では、公式でアナウンスされている機能以外で注目に値する機能を紹介していきたいと思います。

「エクスプレッシブチップス(プロンプトのレコメンド機能)」

「ImageFX」という形で公開されている「Imagen3」にはプロンプトのレコメンド機能のようなものがついています。
「エクスプレッシブチップス」という名称で、この機能も、「Imagen3」が話題を集めいてる理由の一つのようです。生成された画像に影響を与えたプロンプトの部分を強調して表示してくれる機能ですね。

ここでは、画像生成AIにおいて、「画像は言葉の束によって出来上がっている」とイメージしてください。
そして、その数ある束の中から、「どの言葉が相対的に影響力を持っているのか」を、あらかじめ教えてくれると言うのです。

例えば、以下の画像の例で見てみましょう。

「A grand monolith standing over mars, as seen from a space station window, ominous, sketchy ink illustration(宇宙ステーションの窓から見た、火星の上に立つ壮大なモノリス、 不吉な予感、 スケッチ風イラスト)」というプロンプトで出力された画像です。

出力例.5
プロンプト:「A grand monolith standing over mars, as seen from a space station window, ominous, sketchy ink illustration(宇宙ステーションの窓から見た、火星の上に立つ壮大なモノリス、 不吉な予感、 スケッチ風イラスト)」

レコメンドプロンプト
レコメンドされるプロンプト

ここでは、「grand(巨大な)」「monolith(モノリス)」「mars(火星)」「space station(宇宙ステーション)」「ominous(不吉な)」にマーカーラインが引かれており、これらの単語が高い影響力を持っていることがわかります。

これらの個別バラバラの単語に対して強弱がつけられており、これらの全ての組み合わせと、過去に学習したデータを照らし合わせて画像が生成されています。

レコメンドプロンプトのイメージ
画像は言葉の束(プロンプト)によって出来上がっている

また、レコメンドされた単語には、ドロップダウンリスト(プルダウン)の形で変換候補が提示されています。

マーカーラインの引かれている言葉が、高い影響力を持っていることの「しるし」であり、「mars」を選択すれば、その候補として、「earth(地球)」「jupiter(木星)」「saturn(土星)」というようにして、他の惑星名が出てきています。

mars(火星)を、「Earth(地球)」や「Jupiter(木製)」に変更して出力した画像
レコメンド機能に従って「mars(火星)を、「Earth(地球)」や「Jupiter(木製)」に変更して出力した画像」

このように、ユーザーはレコメンドに従うだけでいいのです。「Imagen3」に搭載されたこの機能は、「自分の欲しい画像を最短距離で獲得できる機能」と言ってもいいかもしれません。
このような機能は、一般的な画像生成AIには搭載されていません。

画像生成AIを使用する上で重要なポイントの一つは、「仮説検証の質」です。
画像生成AIにも仮説が必要なのです。なぜなら、「最初に生成した画像」が「一番求めていた画像」になることは極めて難しいからです。

ある程度の狙いを定めてプロンプトを入力した後、出力結果の画像を観察し、微調整を繰り返していくプロセス。
それこそが画像生成AIユーザーの営みなのだとすれば、プロンプトの分析(仮説検証能力)にこそ競争優位が宿ります。

期待通りかそれ以上の画像を、偶然の神様に期待しているだけでは再現性がありません。

「頭の中にある出力したい画像の方向性」と、「目の前の手元にある実際の画像およびプロンプト」の違いにどこまで敏感になれるかが、画像生成AIを使いこなすコツです。
この、「頭の中の妄想」と「手元の現実」の交渉の上手さが、仮説検証の質の高さに繋がります。

そして、このことを踏まえると、「Imagen 3」のこの機能は、「仮説検証の自動化」とも言えるでしょう。確かにこの「自動化」は便利ですが、注意点もあります。
例えば、古代の哲学者ソクラテスの話を思い起こしてもいいでしょう。彼は、ある時、文字(書くこと)を利用することで、色々なことを忘れずに済み、人間の記憶の蓄積力が向上するということについて疑ったことがあります。
なぜなら、今まで「人間の脳みそ」が担っていた記憶という機能を文字というテクノロジーが代替してしまうことで、逆に人間の記憶力が失われてしまう可能性があるからです。とはいえ、単純に文字が悪であるということを彼は言いませんでした。人間にとって文字とは、薬でもありが毒でもある。そういった両義性においてテクノロジーを見ていく必要があるということです。

「Imagen3」の文脈に戻れば、プロンプトの分析が自動化されるということは、自らの「仮説検証能力(交渉能力)」を育まない理由にもなるかもしれないということです。そのことに注意しながら活用していけば、逆にどんなプロンプトの要素が効果的なのかを学ぶきっかけにもなりますし、よりプロンプトの仮説検証能力が上がることもあるでしょう。

このように、「毒」と「薬」の両方の性質を踏まえた上で、意識的に「Imagen 3」の活用を実践することが必要かもしれません。

ここまでの話は、画像生成AIのプロフェッショナルを目指す人向けの、やや長期的な視点に基づいた話でした。

そのため、短期的な視点で、目の前の課題解決を行うという話の場合、この限りではありません。


Imagen3利用時の注意点

料金について

Googleのアカウントでログインすることで、誰でも無料で利用することができます。

商用利用について

「ImageFX」のサービス上で、商用利用が可能であると名言はされていませんが、「Gemini」で作成された画像は商用利用が許可されているため、「ImageFX」で生成された画像も、同様の形で商用利用が許可されているかもしれません。

また、「ImageFX」で生成された画像には「SynthID」が付与されているため、安全性がかなり高い水準で担保されています。商用利用するにあたっても、不正使用や権利侵害を及ぼすような使用には十分注意しましょう。

「SynthID」…AIによって生成された画像にデジタル透かし(電子透かし)を埋め込む技術のことを指す。Google Cloudによって開発された。視覚的な特徴として何かロゴだったりが掲載されるのではなく、画像のデジタル情報に対して痕跡が埋め込まれる。


まとめ

「バージョンアップしたフォトリアリズム」、「エクスプレッシブチップス」、「SynthID」、etc..

ユーザーのクリエイティブを支援する多数の新機能を搭載した最新画像生成AI「Imagen3」。使い方の解説部分で見てきたように、「ImageFX」上で実装されたそれらの機能は、ユーザーの画像生成AI体験をとても豊かにしてくれています。この驚きをぜひその手で体感してみてください。

また、「Imagen3」を搭載した「ImageFX」はつい最近発表されたばかりです。「AI Test Kitchen」上で公開されていることから明らかのように、今後ますますバージョンアップして新機能が搭載されていく可能性があります。商用利用の件など、まだ不明な点もありますが、いずれにせよ、今後のGoogleの動向が欠かせませんね。

以上でこの記事は終わりになりますが、AI総合研究所では、「Imagen3」以外の画像生成AIについてはもちろん、その他多数のAIについての情報を発信しています。ぜひご覧ください。

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!