この記事のポイント
- Imagen3(ImageFX)は自然言語入力から高精細な画像を生成する最新モデル
- 日本語にも対応しており、GeminiやImageFXから無料で利用可能
- テキストレンダリング機能により画像内に正確なテキストを挿入可能
- エクスプレッシブチップス機能でプロンプトの影響力を可視化
- SynthID技術で生成画像に電子透かしを埋め込み、安全性を確保
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
Googleが開発した最新の画像生成AI「Imagen3」が注目を集めています。
2024年5月のGoogle I/Oで発表されたImagen3は、高精細な画像生成能力とテキストレンダリング機能を特徴とし、ついにGeminiやImageFX通じて無料で利用可能になりました。
本記事では、Imagen3の概要、特徴、使用方法、そして「エクスプレッシブチップス」などの革新的な機能について詳しく解説します。
また、SynthID技術による安全性確保や商用利用の可能性についても触れ、この先進的なツールがクリエイティブな作業にもたらす変革の可能性を探ります。
目次
ImageFX(Imagen3)とは
Imagen3は、Googleが2024年に発表した最新の画像生成AIモデルです。テキストから高品質で写実的な画像を生成する能力を持ち、AIアート分野に革新をもたらしています。
主な特徴は、高度な写実性、優れたプロンプト理解力、テキストレンダリングの向上、SynthID技術による電子透かし、エクスプレッシブチップス機能などです。
元々は「ImageFX」というサービスを通じて一般ユーザー向けに提供されていましたが、対話型AI「Gemini」からでも利用できるようになりました。
ImageFX(Imagen3)の主要機能
Imagen3は、これまでのモデルよりも高度な写実性、優れた指示追従能力、そして細部にまで行き届いた表現力が特徴的です。
ここでは、Imagen3が持つ革新的な機能と、それがもたらす可能性について詳しく見ていきましょう。
1.テキストレンダリング
Imagen3は、吹き出しや文字を画像内に自然に組み込むことができ、漫画やポスター、広告のようなシーンを生成する際に特に優れています。
テキストを含む画像のレンダリングは他の生成AIには難しいとされる中で、Imagen3はその精度の高さで注目されています。
左画像のプロンプト:「A single comic book panel of a boy and his father on a grassy hill, staring at the sunset. A speech bubble points from the boys mouth and says: The sun will rise again. Muted, late 1990s coloring style」 / 右画像のプロンプト:「A photograph of a stately library entrance with the words “Central Library” carved into the stone」
Google DeepMindより
「A speech bubble points from the boys mouth and says: 」という形式の書き込みによって、画像に吹き出し内のセリフが反映されています。
2.高精細な画像
Imagen3は、驚くべき詳細さと質感を持つ画像を生成することができます。微細なテクスチャや光の反射、物体の立体感など、まるで実際の写真のような精密さを実現しています。
プロンプト:「A view of a person’s hand as they hold a little clay figurine of a bird in their hand and sculpt it with a modeling tool in their other hand. You can see the sculptors scarf. Their hands are covered in clay dust. A Marco DSLR image highlighting the texture and craftsmanship.」
Google DeepMindより
上記のプロンプトでは、手に粘土のフィギュアを持って彫刻する人物の様子が、非常にリアルな質感で描かれています。
粘土の粉が手に付着している細部まで正確に再現されており、彫刻の道具やスカーフといった小さな要素も高精細に描写されています。
このレベルのディテールは、製品写真やアート作品、手作業のプロセスを視覚的に強調したい場面で非常に効果的です。
3.日本に対する解像度の高さ
Gooleの画像生成AI「Imagen3」、日本に対する解像度が圧倒的に高い。
— すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai) August 29, 2024
広告画像は①Imagen3で画像生成→②v0でサムネ化 or Runwayで動画化のフローが流行りそう。 pic.twitter.com/VOrYH0VF1y
Imagen3は日本に対する解像度の高さも話題になっています🙌後ほど他モデルとの比較セクションにて詳しく紹介していきます。
本記事執筆時点におけるリリース状況では、このクオリティの画像を、誰でも無料で作ることができます。
物は試し、早速使い方を見ていきましょう!
4.エクスプレッシブチップス(プロンプトのレコメンド機能)
「ImageFX」経由で利用できる「エクスプレッシブチップス」は、Imagen3の独自機能の一つです。
この機能は、生成された画像に影響を与えたプロンプトの部分を強調表示し、さらに関連する単語の候補を提示します。
例えば、以下の画像の例で見てみましょう。
プロンプト:「A grand monolith standing over mars, as seen from a space station window, ominous, sketchy ink illustration
「宇宙ステーションの窓から見た、火星の上に立つ壮大なモノリス、 不吉な予感、 スケッチ風イラスト」というプロンプトで出力された画像です。
レコメンドされるプロンプト
ここでは、「grand(巨大な)」「monolith(モノリス)」「mars(火星)」「space station(宇宙ステーション)」「ominous(不吉な)」にマーカーラインが引かれており、これらの単語が高い影響力を持っていることがわかります。
これらの個別バラバラの単語に対して強弱がつけられており、これらの全ての組み合わせと、過去に学習したデータを照らし合わせて画像が生成されています。
画像は言葉の束(プロンプト)によって出来上がっている
また、レコメンドされた単語には、ドロップダウンリスト(プルダウン)の形で変換候補が提示されています。
この機能により、ユーザーは画像生成に大きな影響を与える単語を視覚的に理解し、簡単に変更することができます。
例えば、「mars」を「earth」や「jupiter」に変更するだけで、異なる惑星の風景を生成できます。
レコメンド機能に従って「mars(火星)を、「Earth(地球)」や「Jupiter(木製)」に変更して出力した画像」
「Imagen3」に搭載されたこの機能は、「自分の欲しい画像を最短距離で獲得できる機能」と言ってもいいかもしれません。
しかし、過度に依存すると自身のプロンプト作成スキルの向上を妨げる可能性もあります。そのため、この機能を学習ツールとして活用し、効果的なプロンプト作成の理解を深めることが重要です。
ImageFX(Imagen3)の使い方
Imagen3は、「ImageFXの公式サイト」もしくは「Gemini」のチャット上で利用することができます。
ここでは、ImageFXの公式サイト経由での利用方法を説明していきます。
1.ログインして操作画面を表示させる
以下のような画面が表示されているかと思いますが、こちらは操作画面ではありません。
右上の「Sign with Google」を選択し、ログインすることで操作画面に移ることができます。
「ImageFX」のトップ画面。
ちなみに、この画面の真ん中に表示されている画像は、「ImageFX」の生成例です。右下の丸いボタンのようなものを選択すれば、プロンプトやシード値が表示されます。
トップ画面。右下のボタンを選択することでプロンプトやシード値を表示可能
「Sign with Google」を選択して手続きを進めていきます。
利用規約への同意などが求められるので、一読の上、次に進めていきましょう。
「Sign in」の画面
手続きを進めれば、以下のような操作画面が登場するはずです。こちらの画面が「ImageFX」の操作画面です。

「ImageFXの操作画面」
2.画像を出力する
黄色い枠内でプロンプトを入力
画面左側の黄色の枠に言葉を入力してみましょう。生成したい画像のイメージを入力すれば、黄色の枠内の右下に「作成」というボタンが表示されます。
このボタンを押すことで、プロンプトに沿って画像が出力されます。
例えば、「blue sky」と入力して「作成」を押すと、以下のような「本物の空の写真画像」が出力されました。
プロンプト:「Blue Sky」で画像を出力する
プロンプト:「Blue Sky」での生成例
ちなみに、プロンプトを何も入力しない状態の時には、「作成」のボタンではなく 「I`m Feeling Lucky」というボタンになっています。
このボタンを押せば、ランダムでプロンプトを自動生成してくれます。プロンプトが思いつかない時や、試しで生成したい時などには便利ですね。
例として、以下のようなプロンプトが生成されます。
「I`m Feeling Lucky」によるプロンプトの例:「Close-up photo of a spider spinning its web, showcasing the intricate details and delicate threads , with an emphasis on the textures and colors of the web」
黄色の枠内にはまだ気になる機能が搭載されています。下にご注目ください。「もっと生成」の後に「35mm film」など、いくつかの単語の候補が並んでいます。
これらのいくつかの単語を選択すれば、プロンプトに追加されていきます。
そして、「もっと生成」を選択すれば、単語の候補がシャッフルされて、別の候補が出てくる仕組みになっています。
試しに「35mm film」と「dramatic」という単語を選択して生成してみましたが、先ほどの「blue sky」だけのプロンプトと比べて雰囲気が大きく変わりました。
青空と一口にいっても、雲の形や光の入り方、コントラストの妙など様々です。
こういった機能があることで、自分が想像もしていなかった画像を生み出すことや、プロンプトを練り上げる時のサポートとしても使えそうです。
プロンプト:「Blue sky、35mm film、dramatic」
いかがでしたでしょうか。
上述した点を踏まえておけば「ImageFX」を使いこなしていくことができるでしょう。
ImageFX(Imagen3)と他の画像生成AIの比較
Imagen3の性能に関するテスト結果を確認してみましょう。Imagen3は、全体的な満足度で高評価を得ており(左)、特に詳細なプロンプトに対して他のモデルよりも優れた一貫性を発揮していることがわかります(右)。
視覚的魅力においては、Midjourneyv6に若干劣る
一方、Visual appeal (視覚的魅力)においては、Midjourney v6.0には若干劣るとしています。
では実際に同じプロンプトでImagen3・Midjourney・Flux.1・DALLE-3を試した結果を紹介します。
【日本の漫画】
Japanese Manga
【浴衣の女性】
A detailed portrait photo of a traditional Japanese lady wearing Yukata with intricate floral patterns, attending a vibrant summer festival at dusk
【雪と鶴】
Red-crowned cranes dance in the snow , motion captured in superb photography , National Geographic-style photos of red-crowned cranes in 8K, hyper-quality resolution
このようにプロンプトが長くなると、Imagen3の正確性が特に際立ちます。
【新幹線と田園風景】
The exterior of the Shinkansen train passing Mount Fuji, Japan. The white bullet-shaped Shinkansen series with black windows is seen in front of an endless rice field and distant snow-capped mountain
ImageFX(Imagen3)のプロンプト付き生成例
このセクションでは、実際にImagen3の画像生成をプロンプト付きで紹介します。皆様の今後のアイデアとなれば幸いです🙌
Word “AI souken” made from various colorful feathers , sky background
white fluffy rabbit toy is sleeping in the kid's room , on the floor of baby room with toy boxes and toys around, in the style of photorealistic 3D rendering
ninja in kyoto ,in the style of a paper sclupture
In a close-to-medium shot, a tiny dog Pug lies supine on a soft, white bed , deeply asleep amidst a serene atmosphere . Its surroundings are adorned with plush stuffed animals, creating a heartwarming and therapeutic ambiance that invites a sense of tranquility and pure joy
black and white pen image of a journal notebooks . Image of boat
ImageFX(Imagen3)の料金について
ImageFXとGemini、いずれの場合でもGoogleのアカウントでログインすることで、無料で利用可能です。
Imagen3(ImageFX)の商用利用について
「ImageFX」のサービス上で、商用利用が可能であると名言はされていません。「Gemini」で作成された画像の商用利用についてが言及がありません。
商用利用を検討する場合は、Googleの公式な発表や利用規約の更新を注意深く確認し、必要に応じてGoogle社に直接問い合わせることをおすすめします。常に最新の情報に基づいて判断することが重要です。
また、「ImageFX」で生成された画像には「SynthID」と呼ばれる透かしが付与されています。
SynthIDは、Googleが開発したAI生成画像用のデジタル透かし技術で、画像のデジタル情報に痕跡を埋め込みます。この技術により、視覚的には分からない形で画像がAIによって生成されたことを証明できます。
この仕組みにより、「ImageFX」で生成された画像の安全性は高い水準で担保されています。
しかし、商用利用を検討する際は、不正使用や権利侵害を避けるため、最新の利用規約を確認し、適切な使用方法を守ることが重要です。
参考:SynthID
まとめ
「バージョンアップしたフォトリアリズム」、「エクスプレッシブチップス」、「SynthID」、etc..
ユーザーのクリエイティブを支援する多数の新機能を搭載した最新画像生成AI「Imagen3」。使い方の解説部分で見てきたように、「ImageFX」上で実装されたそれらの機能は、ユーザーの画像生成AI体験をとても豊かにしてくれています。この驚きをぜひその手で体感してみてください。
また、「Imagen3」を搭載した「ImageFX」はつい最近発表されたばかりです。「AI Test Kitchen」上で公開されていることから明らかのように、今後ますますバージョンアップして新機能が搭載されていく可能性があります。商用利用の件など、まだ不明な点もありますが、いずれにせよ、今後のGoogleの動向が欠かせませんね。
以上でこの記事は終わりになりますが、AI総合研究所では、「Imagen3」以外の画像生成AIについてはもちろん、その他多数のAIについての情報を発信しています。ぜひご覧ください。