この記事のポイント
- この記事はGoogleが開発したAIツール「Whisk」について説明しています。
- Whiskはテキストではなく画像を組み合わせて新しいビジュアルを生成する革新的な技術です。
- 利用者は自由に画像をアップロードし、画像の「テーマ」「シーン」「スタイル」などの要素を指定して生成を行うことができます。
- Whiskの使用は無料で、現在は米国居住者限定で公開されており、VPNを使用すれば日本からもアクセス可能です。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
Googleが開発した新たなアートを創り出すAIツール「Whisk」は、従来のテキストベースの手法とは一線を画し、複数の画像を泡立て器のように混ぜ合わせることで、新しい画像を生み出す革新的なテクノロジーです。
この記事では、Imagen 3とGeminiモデルを採用したWhiskの主な機能や料金、使い方をわかりやすく解説します。
イメージのリミックスや画像入力とテキスト指示の組み合わせなど、誰もが直感的にクリエイティブな作品を創出できるWhiskの活用事例も紹介し、あなたのアートやビジュアル表現の幅を広げるための一助となることでしょう。
現在は米国居住者のみが利用可能で、Google Labsから無料で体験できますが、今後の展開により利用の幅が広がる可能性が期待されています。
目次
Whiskとは
Whiskは、Googleが開発した、画像を組み合わせて新しい画像を生成する実験的なAIツールです。
従来のテキストベースの画像生成AIとは異なり、ユーザーが指定した複数の画像を、まるで「泡立て器(Whisk)」のように混ぜ合わせ、独創的な画像を創り出します。
このツールは、Googleの最先端AIモデルである**「Imagen 3」と「Gemini」**を組み合わせて開発されており、この2つのAIが連携することで、高度な画像理解と生成を実現しています。
Whiskの主な機能
Whiskは、これまでの画像生成AIとは一線を画す、ユニークな機能を備えています。
画像のリミックス
Whiskでは、複数の画像を組み合わせて、より直感的に画像を生成することが可能です。
ユーザーは、「テーマ」「シーン」「スタイル」の3つの要素を、それぞれ画像で指定することができます。
- テーマ: 生成される画像の主役となる被写体(人物や物体など)。
- シーン: 画像の背景となる情景や場所
- スタイル: 画像全体の画風や雰囲気、色調など
たとえば、「猫」の画像を「被写体」に、「花畑」の画像を「シーン」に、「夕暮れ」の画像を「スタイル」に指定することで、AIがそれらの要素を組み合わせた新しい画像を生成します。
whiskの出力例
このように、3つの要素を画像で指定することで、言葉だけでは説明しにくいイメージを、AIに直感的に伝えることができます。
画像入力とテキスト指示の組み合わせ
Whiskでは、画像だけでなく、テキストで補足説明を加えることで、より詳細な指示を与えることが可能です。
以下の画像は、テキストプロンプトで「ぬいぐるみのくま」と指定した例です。
元々の被写体にはリアルなクマの画像を用いていますが、きちんとぬいぐるみ風のくまで出力されていることがわかります。
このように、画像とテキストを組み合わせることで、難しいプロンプトを用意せずともユーザーの意図をより正確にAIに伝え、思い通りの画像を生成しやすくします。
素材画像の生成
画像のリミックスだけでなく、合成に使うための素材画像もWhisk内で生成することが可能です。
プロンプトを変えて再生成も可能なので、納得がいくまで微調整することもできます。
Whiskの料金
Whiskは「Google Labs」から無料で利用可能です。
Whiskの使い方
ここでは、Whiskの実際の使い方について解説していきます。
基本操作
-
Whiskのページにアクセスします。
-
次のような画面が表示されるので、「ゼロから開始」をクリックします。
-
画面左側の、「テーマ」「シーン」「スタイル」の3つの枠に、それぞれ画像をアップロードします。
-
より詳細な指示を与えたい場合は、テキストで説明を追加します。
今回は、「30代ぐらいの日本人男性」という説明をテキストで加えました。
-
画像右下の「➡️」ボタンをクリックすると、画像が生成されます。
-
生成された画像を保存したい場合は右側の矢印、プロンプトを編集したい場合は左側の矢印から可能です。
生成画像の編集
「編集ボタン」をクリックすると、次のようにプロンプトが表示されます。
ここでプロンプトを調整し、「生成」をクリックすることで画像が再生成されます。
Whisk内で画像を用意する方法
-
生成したい素材画像の欄(「テーマ」「シーン」「スタイル」のいずれか)にカーソルを置き、「テキストを入力」をクリックします。
-
次のような画面が表示されるので、プロンプトを入力します。
「プロンプトを考えるのが難しい」という方は、ChatGPTやGeminiに生成したい画像のイメージを入力して、プロンプトを考えてもらう方法がおすすめです。
-
「生成」ボタンをクリックすると、画像が生成されます。
生成された画像に再度指示を加えたり、プロンプトを変更して再生成することも可能です。
-
生成された画像は、そのまま素材として利用できます。
保存することも可能です。
生成時のポイント
必ずしも3つの画像を指定する必要はなく、2つの要素のみを指定して出力することもできます。
手順は簡単で、画面左側の画像一覧から、外したい要素の画像をチェックを外し、生成ボタンを押します。
以下は、先ほど使用した「テーマ」と「シーン」の2つのみを用いて生成された画像です。
元々「スタイル」にはポートレート風の画像を指定していましたが、その画像を外したことで若干ぼかしが薄れているのがわかります。
「シーン」と「スタイル」は指定する画像が似たり寄ったりになってしまうことや、余計なノイズが入ってしまうことがあります。
そのため、特に人物や情景などを詳細に指定したい場合は、あえてスタイルの画像を指定しないという方法がおすすめです。
Whiskの活用事例
Whiskは、そのユニークな機能から、様々な場面での活用が期待されています。
アイデアの視覚化
新しい製品やサービスのアイデアを具体化する際に、Whiskは強力なツールとなります。
例えば、新商品のコンセプトを考える際に、イメージに近い画像を組み合わせることで、アイデアを視覚的に表現し、チームメンバーと共有することができます。
漠然としたアイデアを具体的なイメージに落とし込むことで、議論を活性化し、プロジェクトを前進させることができるでしょう。
コンセプトアートの作成
Whiskは、製品デザイン、Webデザイン、建築など、様々な分野のコンセプトアート作成に活用できます。
例えば、新しいWebサイトのデザインを検討する際に、Whiskを使って、様々なレイアウトや配色、イメージ画像を組み合わせたビジュアルを作成することで、デザインの方向性を効率的に検討することができます。
クリエイティブな表現
Whiskは、アート作品やイラスト、写真などの創作活動にも役立ちます。
Whiskを用いて、自身の想像力を刺激するような画像を生成し、それをインスピレーション源として、新たな作品を生み出すことができるでしょう。
これまで思いつかなかったような、意外性のある組み合わせを発見できるかもしれません。
まとめ
Googleが開発した「Whisk」は、画像を組み合わせて新しい画像を生成する、革新的なAIツールです。その使いやすさと、従来のツールにはないユニークな機能は、クリエイターの創作活動を強力にサポートするでしょう。現在は実験段階ですが、今後さらに機能が拡張され、様々な分野で活用されることが期待されます。Whiskは、私たちの創造力を刺激し、新たな表現の可能性を広げてくれる、未来のツールと言えるでしょう。