AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

Grokとは?最新版Grok2や、画像生成機能の使い方をわかりやすく解説

この記事のポイント

  • Grokの基本概念と特徴、開発背景を詳しく解説
  • 最新版Grok-2の新機能と性能向上について説明
  • Grokの画像生成機能「Flux.1」の特徴と使用方法を紹介
  • GrokとGPT-4など他のAIモデルとの比較分析
  • Grokの実際の使用例と、使用する際の注意点を提示

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AIの進化が加速する中、イーロン・マスクが設立したxAI社が開発したGrokが注目を集めています。
Grokは単なる対話型AIを超え、リアルタイム情報へのアクセスや画像生成など、多彩な機能を備えています。

本記事では、Grokの基本概念から最新版Grok-2の特徴、そして新たに追加された画像生成機能まで、包括的に解説します。GPT-4など他のAIモデルとの比較や、実際の使用例、注意点なども取り上げ、Grokの可能性と課題を探ります。

AIの最新動向に興味がある方、ビジネスでの活用を検討している方にとって、有益な情報となるでしょう。

Grokとは

Grokとは
Grokとは

Grokは、イーロン・マスクが設立したAI開発企業(xAI)によって開発された対話型AIです。
一般的な対話型AIとしての基本機能に加え、複雑なプロンプト技術やリアルタイム情報を活用する能力を持ち、幅広い用途に対応しています。

特徴は以下の通りです。

特徴 説明
テキスト生成と会話 Grokはテキストを生成し、ユーザーとの会話を行います。
リアルタイム情報 X(旧Twitter)上の投稿に直接アクセスし、最新の情報を利用可能です。
二つのモード • ユーモアモード: 正確性よりも独創性を重視
• レギュラーモード: より正確な情報を提供
料金 「Xプレミアム+」加入者のみ利用可能。月額16ドル~

最新版Grok-2とは

Grok-2は現在(2024年8月時点)ベータ版で、X PremiumおよびPremium+の加入者のみが利用可能になっています。

今後の展開により、実際の使用環境でのさらなる性能と機能が明らかになると予想されます。

ベンチマーク Grok-1.5 Grok-2 mini Grok-2 GPT-4 Turbo Claude 3 Opus Gemini Pro 1.5 Llama 3 405B GPT-4o Claude 3.5 Sonnet
GPQA(大学院レベルの知識) 35.9% 51.0% 56.0% 48.0% 50.4% 46.2% 51.1% 53.6% 59.6%
MMLU(広範な知識理解) 81.3% 86.2% 87.5% 86.5% 85.7% 85.9% 88.6% 88.7% 88.3%
MMLU-Pro(専門知識理解) 51.0% 72.0% 75.5% 63.7% 68.5% 69.0% 73.3% 72.6% 76.1%
MATH(数学問題解決) 50.6% 73.0% 76.1% 72.6% 60.1% 67.7% 73.8% 76.6% 71.1%
HumanEval(プログラミング能力) 74.1% 85.7% 88.4% 87.1% 84.9% 71.9% 89.0% 90.2% 92.0%
MMMU(マルチモーダル理解) 53.6% 63.2% 66.1% 63.1% 59.4% 62.2% 64.5% 69.1% 68.3%
MathVista(図形やグラフなどの数学的問題解決能力) 52.8% 68.1% 69.0% 58.1% 50.5% 63.9% - 63.8% 67.7%
DocVQA(ドキュメントに基づいた質問応答能力) 85.6% 93.2% 93.6% 87.2% 89.3% 93.1% 92.2% 92.8% 95.2%

(参考:Grok-2 Beta Release

  1. 画像生成(後ほど詳述)
    Grok-2の最も重要な新機能の一つは、画像生成機能です。
    ユーザーはX(旧Twitter)プラットフォーム上で、FLUX.1を使用し、Grok-2に画像生成を直接指示することができます。

  2. 性能向上
    上記ベンチマークでClaude 3.5 SonnetやGPT-4-Turboを上回る性能が示されています。
    また、Grok-2はリアルタイムのウェブ検索機能を組み込んでいます。

  3. 特化型バリアント

  • Grok-2: フル機能を備えたメインモデル
  • Grok-2 mini: より効率的な小型バージョンで、プレミアムユーザー向けに提供。

  1. Xプラットフォームとの統合
    Grok-2およびGrok-2 miniは、Xプラットフォーム上でAI駆動の機能として導入される予定です。
    これには、検索機能の改善や投稿の推薦が含まれます。

2024年8月のアップデート:Flux.1とは?

Flux.1とは
Flux.1とは

Flux.1は、Black Forest Labsによって開発された、テキストから画像を生成する最新のAIモデルです。
ローカルに動作するよう設計されており、MLXアーキテクチャを活用しています。

  • 高速処理
    特に「Schnell」は、2秒以内で高品質な画像を生成する能力を持っており、迅速な結果が求められるビデオ制作やライブなどの場面で特に有用です。

  • ローカルでの処理
    ローカルでの処理が可能で、プライバシーの保護やオフラインでの使用、低遅延といった利点があります。

  • オープンソース
    Apache 2.0ライセンスのもとで公開されており、このモデルを基にアプリやツールを自由に開発することが出来ます。

  • パフォーマンス性
    非常にリアルな画像の生成に長けています。また、高精度なテキスト描画も特徴です。

  • モデル選択可
    Flux.1には、3つ(Pro、Dev、Schnell)のモデルがあります。
    コスト・用途・ニーズにあった選択が可能です。


【関連記事】

FLUX.1とは?使い方や料金、プロンプトを徹底解説!【画像生成AI】 | AI総合研究所

ローカル利用可能な動画生成AI「Flux1」の概要、モデル一覧、料金、使い方を詳説。活用例や注意点も幅広く紹介し、画像生成に興味のある方向けに情報を提供します。

https://www.ai-souken.com/article/what-is-flux1

Grokへの統合

  • Grok-2でのFlux.1の利用開始
    2024年8月のアップデートで、Grok-2にFlux.1が統合されました。
    今後Flux.1はGrok-2の一部として使用可能です。それに伴うメリットを以下で解説します。

  • 簡単なアクセスと利用
    以前はFlux.1を利用するには特定のサイトやプラットフォームを通じてアクセスする必要がありました。
    Grok-2に統合されたことで、ユーザーはGrokのインターフェースから直接Flux.1を利用できるようになりました。

  • 多機能なAIツールとしての進化
    Grok-2との統合により、Grokは対話型AIだけでなく、画像生成もできる多機能なツールへと進化しました。
    ユーザーはテキストによる対話と画像生成の両方をスムーズに利用できるようになり、クリエイティブなプロジェクトでより豊かな表現が可能になりました。

  • プライバシーと安全性の向上
    ローカル処理の特徴を活かし、ユーザーのデータが外部サーバーに送信されることなく、デバイス内で全ての処理が行われます。


Grokの画像生成機能の使い方

飛行機雲でAIsoukenを作成
飛行機雲でAIsoukenを作成

それでは早速Grokを用いて画像を作成していく手順を解説していきます。

【Grok上でのFlux.1の主な仕様】
モデルの種類: 正確なモデルは明記されていないが、FLUX.1 Proである可能性が高い
画像解像度:1024x768でJPG形式

生成回数: プレミアムプランでは2時間あたり20回まで生成可能。
Xプレミアム+ではさらに多い可能性。

プロンプトの長さ:英字で500文字まで。

日本語利用:プロンプトには使用可能。ただし生成画像内で日本語は生成されない。

操作手順とインターフェース

  1. X PremiumおよびPremium+に加入しているアカウントを用意し、Grokを開く

X PremiumおよびPremium+に加入しているアカウントを用意し、Grokを開く
X PremiumおよびPremium+に加入しているアカウントを用意し、Grokを開く

  1. Ask anythingにプロンプトを入力
【例】
airplane writing 'AI souken' in the sky with contrails, text formed by fluffy, cloud-like letters, airplane visible creating the text, 'Link X Japan' written on the airplane's body'
(飛行機雲で空に「AI souken」,ふわふわの雲のような文字,飛行機の胴体に「Link X Japan」)


  1. 結果の確認
    Web版の場合画像を右クリックで画像の保存ができます。 アプリ版は画像長押しです。

結果はチャット上で確認可能で、右クリックで画像の保存ができる。


Grok(Flux.1) vs Midjourney

Flux.1とその他画像生成AIモデルの比較
Flux.1とその他画像生成AIモデルの比較
出典:Black Forest Labs

ここではGrok(Flux.1)とMidjourneyの比較結果について紹介します。

  1. プロンプトへの対応(Promot Following)
    Flux.1は、プロンプトに従って画像を生成する能力が高く、特にプロンプトの複雑な指示にも一貫して適応できる点で優れています。

  2. 視覚的品質(Visual Quality)
    画像の視覚的な質においても、Flux.1は非常に高い評価を受けています。生成された画像のリアルさや細部の表現力が際立っています。

  3. 出力の多様性(Output Diversity)
    Flux.1は、生成できる画像のバリエーションが豊富であり、様々なスタイルや内容に柔軟に対応できます。

  4. サイズ/アスペクトの多様性(Size/Aspect Variability)
    画像のサイズやアスペクト比に関しても、Flux.1は高い柔軟性を持ち、ユーザーの要求に合わせた多様な出力が可能です。

  5. 文字の生成(Typography)
    画像内にテキストを正確に描写する能力においても、Flux.1はMidjourneyを上回っています。


ここまで見ると、Flux.1の方が圧倒的に良いように思われてしまうかもしれませんが、Midjourneyの方が優れている点があります。

同じプロンプトで比べてみましょう。

Watercolor painting of a flower garden, with a mother and daughter holding hands in the distance, perspective view, in an impressionist style.

水彩画,花の庭園、遠くで手を繋ぐ少女と母親、印象派

Midjouney
Midjouneyで生成した水彩画
Midjouneyで生成した水彩画

Grok(flux.1)
Grok(flux.1)で生成した水彩画
Midjouneyで生成した水彩画


上記の画像からも分かるように、Midjourneyは柔らかい色彩の使い方や繊細なタッチで、水彩画のような質感を再現するのに非常に優れています。
特に、水彩画や印象派のような繊細な表現が求められる場合に、その強みが際立ちます。

このような芸術性を必要とする場合は、Midjourneyは理想的なツールです。

結論、FLUX.1はリアルな表現や正確な描写が重要な時に適しています。
例えば、高解像度の画像が求められるビジネスシーンや、テキストを含む正確な表現が必要な場面で効果的です。

Midjourneyは芸術的かつクリエイティビティーが求められる際に依然として最適な選択肢となっています。

どちらを選ぶかは用途次第となるのでので、以下の解説をふまえ、ご自身のニーズにあった選択をおすすめします。

【関連記事】
Midjourney(ミッドジャーニー)の始め方と使い方、プロンプトのコツを解説!

Grok(Flux.1)の使用例

  1. Gen-3で動画化


  1. 絞りの調整


  1. インテリアデザイン


  1. 美術×画像生成


  1. LumaAIで動画化


Grok(Flux.1)を使用する際の注意点

  1. 著作権と倫理的な使用
    著作権を侵害する可能性のあるコンテンツや、不快な内容を生成しないよう注意し、倫理的なガイドラインに従って使用しましょう。

  2. 商用利用の適合性
    画像をビジネスで使用する場合、商業利用が許可されたFLUX.1のバージョン(FLUX.1 [pro]FLUX.1 [schnell])を使用していることを確認してください。

モデル 商用利用 特徴
FLUX.1 [pro] 最高の性能を提供。APIを通じてアクセス可能。企業向けカスタマイズソリューションも提供。
FLUX.1 [dev] × 非商用利用。商用利用希望の場合はBlack Forest Labsに連絡で対応可能。
FLUX.1 [schnell] Apache 2.0ライセンスで提供。ローカルでの開発や個人利用に最適。


  1. プライバシーとセキュリティ
    プロンプトに個人情報や機密情報を含めないようにして、プライバシーとセキュリティを保護してください。

  2. 日本語生成
    プロンプトに日本語は使用できますが、画像生成では日本語テキストの出力はできません。

参考:black forest labs.


まとめ

この記事では、Grokの画像生成機能について詳しくご紹介しました。
2024年8月のアップデートにより、XプレミアムユーザーはGrokで画像生成を利用できるようになり、そこで活躍しているのがFlux.1というAI画像生成モデルです。
Grokの画像生成は、使いやすく、高精度な結果が得られるのが特徴です。
興味のある方はぜひ試してみてください。この解説が、Grokでの画像生成に関心をお持ちの方の参考になれば幸いです。

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!