AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

【DeepSeek】画像生成AIモデル「Janus Pro」とは何かをわかりやすく解説

この記事のポイント

  • DeepSeek Janus Proは、画像理解と画像生成の両タスクで高い性能を発揮するAIモデル
  • 独自のアーキテクチャと3段階の学習戦略で、効率性と性能を両立
  • 1Bと7Bの2つのモデルサイズがあり、用途に応じて選択可能
  • Hugging Faceからダウンロード可能、オンラインデモも利用可能
  • コードはMIT、モデルはDeepSeekモデルライセンスで商用利用も可能

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。


AIモデルは進化を続けていますが、画像認識と画像生成を1つのモデルで同時に高いレベルで実現することは、長い間、困難な課題とされてきました。
従来のモデルでは、どちらかのタスクに特化するか、両方のタスクに対応しようとすると性能が低下してしまう、という問題がありました。

その常識を覆すのがDeepSeekが開発した「Janus Pro」です。

本記事では、DeepSeek Janus Proについて、基礎から応用までをわかりやすく解説します。
特徴、性能、既存モデルとの比較、使い方、そしてライセンスまで、幅広く網羅的に説明します。

DeepSeek Janus Proとは?

DeepSeek Janus Pro は、DeepSeek-AI が開発した、マルチモーダル理解画像生成の両方に優れた性能を発揮する、最先端のAIモデルです。

従来のモデルでは、画像認識 (マルチモーダル理解) と画像生成を1つのモデルで同時に行うと、性能が低下する傾向がありました。

しかし、DeepSeek Janus Pro は、独自のアーキテクチャと学習戦略を採用することで、この問題を克服し、両方のタスクで高い性能を実現しています。

Janus Proの性能
Janus Proのパフォーマンス (参考:Github


DeepSeek Janus Proの特徴

DeepSeek Janus Proは、従来のマルチモーダルモデルの限界を打破する、様々な特徴を備えています。

Janusからの進化

DeepSeek Janus Proは、前身モデルである「Janus」のアーキテクチャを基盤としつつ、以下の3つの点で進化を遂げています。

  1. 最適化されたトレーニング戦略
    3段階のトレーニングプロセス (後述) を採用することで、学習効率を高め、モデルの性能を最大限に引き出しています。

  2. 拡張されたトレーニングデータ
    より多様で高品質なデータセットを用いることで、モデルの理解力と生成能力を向上させています。

  3. **より大きなモデルサイズ
    ** 1B (10億) パラメータと 7B (70億) パラメータの2つのモデルサイズが用意されており、より複雑なタスクに対応できるようになりました。


これらの進化により、DeepSeek Janus Pro は、マルチモーダル理解と画像生成の両方で、従来モデルを凌駕する性能を実現しています。

JanusとJanus Proの生成画像の比較
JanusとJanus Proの生成画像の比較 (参考:Github

AI研修

アーキテクチャ

DeepSeek Janus Proのアーキテクチャは、前身モデルのJanusと同様に、自己回帰トランスフォーマー をベースとしています。

最大の特徴は、視覚エンコーディングを 「Und. Encoder (Understanding Encoder)」 と 「Gen. Encoder (Generation Encoder)」 の2つに分離している点です。

janusproの構成図
DeepSeek Janus Proのアーキテクチャ図 (参考:Github


この分離により、以下のようにそれぞれのタスクに特化した処理が可能になり、性能が向上します。

  • マルチモーダル理解タスク
    Und. Encoder が画像の特徴を抽出し、言語モデルがそれに基づいて応答を生成

  • 画像生成タスク
    Gen. Encoder がテキストの指示に基づいて画像の特徴を抽出し、画像デコーダーがそれを基に画像を生成

学習方法

DeepSeek Janus Pro の学習は、以下の3つの段階を経て行われます。

  1. Unified Pretraining (統一事前学習):

    • すべてのコンポーネント (Und. Encoder, Gen. Encoder, 言語モデル) のパラメータを更新しながら、大規模なデータセットで事前学習を行います。
    • ImageNet データセットで学習することで、モデルは画像の特徴を効率的に捉えられるようになります。

  2. Understanding Encoder と Generation Encoder のパラメータ固定:

    • Und. Encoder と Gen. Encoder のパラメータを固定し、言語モデルのパラメータのみを更新します。
    • この段階では、主にテキスト to 画像生成のデータを用いて学習を行います。

  3. Supervised Fine-tuning (教師あり微調整):

    • 高品質なデータセットを用いて、モデル全体を微調整します。
    • マルチモーダル理解タスクと画像生成タスクのデータを組み合わせることで、両方の性能を向上させます。


この3段階の学習戦略により、DeepSeek Janus Pro は、効率的かつ効果的に学習を進め、高い性能を獲得しています。

データセット

DeepSeek Janus Pro は、学習データの質と量にもこだわっています。

  • マルチモーダル理解:

    • DeepSeek-VL2 (DeepSeek の視覚言語モデル) で使用されたデータ
    • YFCC, LAION などの大規模な画像キャプションデータ
    • テーブル、チャート、ドキュメント理解に関するデータ
    • MEME understanding, Chinese conversational data, dialogue experiences などを含むデータセット

  • 視覚生成:

    • 高品質な画像と、それに対応する詳細なキャプションデータ
    • ノイズの多いデータと高品質なデータの比率を 1:1 に調整


これらの多様なデータセットを用いることで、DeepSeek Janus Pro は、幅広い種類の画像やテキストを理解し、高品質な画像を生成する能力を獲得しています。

モデルサイズ

DeepSeek Janus Proには、以下の2つのモデルサイズが用意されています。

  • Janus-Pro-1B: 10億パラメータ
  • Janus-Pro-7B: 70億パラメータ


一般的に、モデルサイズが大きいほど性能は向上しますが、計算リソースも多く必要になります。
利用シーンや目的に応じて、適切なモデルサイズを選択することが重要です。


DeepSeek Janus Proの性能

DeepSeek Janus Pro は、様々なベンチマークテストにおいて、既存のモデルを上回る性能を示しています。

ベンチマーク結果

以下は、DeepSeek Janus Pro の主なベンチマーク結果です。

ベンチマーク タスク DeepSeek Janus Pro-1B DeepSeek Janus Pro-7B 競合モデル (例)
マルチモーダル理解 (平均) 約64 約66 LLaVA-v1.5-7B, VILA-U, Emu3-Chat
GenEval text to image (指示追従) - 80.0% SDXL (55.0%), SDv1.5 (43.0%), PixArt-a (74.0%), DALL-E 3 (67.0%), Emu3-Gen (48.0%)
DPG-Bench text to image (詳細なプロンプトへの対応) - 84.2% SDXL (83.5%), SDv1.5 (84.1%), Janus (63.2%)

既存モデルとの比較

DeepSeek Janus Pro は競合モデルと比較して、同等またはそれ以上の性能を示しています。

  • マルチモーダル理解: LLaVA, VILA などの既存の統一モデル
  • テキスト to 画像生成: DALL-E 3, Stable Diffusion 3 Medium などのタスク特化型モデル


特に、7Bモデルは、より大きなモデルサイズの競合モデルと比較しても、遜色ない、あるいは上回る結果を出しており、その効率性の高さが際立っています。


DeepSeek Janus Proの使い方

DeepSeek Janus Pro は、以下の方法で利用できます。

Hugging Faceからダウンロード

DeepSeek Janus Proのモデルは、Hugging Face Hub からダウンロードできます。

オンラインデモ(Hugging Face)

Hugging Face Spaces では、DeepSeek Janus Pro-7B のオンラインデモが公開されています。

DeepSeek Janus Pro-7B のオンラインデモ
DeepSeek Janus Pro-7B のオンラインデモ


このデモを利用することで、ブラウザ上からDeepSeek Janus Pro の性能を体験できます。
DeepSeek Janus Pro-7B https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

クイックスタート

DeepSeek Janus Pro の GitHub リポジトリには、モデルの利用方法を解説したクイックスタートガイドが用意されています。

このガイドに従うことで、DeepSeek Janus Proを自分の環境で動かすことができます。


DeepSeek Janus Proのライセンスについて

DeepSeek Janus Pro の利用にあたっては、ライセンスに注意する必要があります。

  • コード: MITライセンス (商用利用、改変、再配布が可能)
  • モデル: DeepSeekモデルライセンス (商用利用可能)

AI研修


まとめ

本記事では、DeepSeek-AI が開発した最新のマルチモーダルモデル、DeepSeek Janus Pro について解説しました。

DeepSeek Janus Pro は、

  • マルチモーダル理解と画像生成の両方で高い性能を発揮
  • 独自のアーキテクチャと学習戦略により、効率性と性能を両立
  • Hugging Face からダウンロード可能で、オンラインデモも利用可能
  • 商用利用可能なライセンスで公開

といった特徴を持ち、今後のAI開発に大きな影響を与える可能性を秘めたモデルです。

ぜひ、DeepSeek Janus Pro を活用して、新たな可能性を切り開いてください。

メルマガ登録

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!