この記事のポイント
DeepSeek Janus Proは、画像理解と画像生成の両タスクで高い性能を発揮するAIモデル
独自のアーキテクチャと3段階の学習戦略で、効率性と性能を両立
1Bと7Bの2つのモデルサイズがあり、用途に応じて選択可能
Hugging Faceからダウンロード可能、オンラインデモも利用可能
コードはMIT、モデルはDeepSeekモデルライセンスで商用利用も可能

監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
AIモデルは進化を続けていますが、画像認識と画像生成を1つのモデルで同時に高いレベルで実現することは、長い間、困難な課題とされてきました。
従来のモデルでは、どちらかのタスクに特化するか、両方のタスクに対応しようとすると性能が低下してしまう、という問題がありました。
その常識を覆すのがDeepSeekが開発した「Janus Pro」です。
本記事では、DeepSeek Janus Proについて、基礎から応用までをわかりやすく解説します。
特徴、性能、既存モデルとの比較、使い方、そしてライセンスまで、幅広く網羅的に説明します。
目次
DeepSeek Janus Proとは?
DeepSeek Janus Pro は、DeepSeek-AI が開発した、マルチモーダル理解と画像生成の両方に優れた性能を発揮する、最先端のAIモデルです。
従来のモデルでは、画像認識 (マルチモーダル理解) と画像生成を1つのモデルで同時に行うと、性能が低下する傾向がありました。
しかし、DeepSeek Janus Pro は、独自のアーキテクチャと学習戦略を採用することで、この問題を克服し、両方のタスクで高い性能を実現しています。
Janus Proのパフォーマンス (参考:Github
DeepSeek Janus Proの特徴
DeepSeek Janus Proは、従来のマルチモーダルモデルの限界を打破する、様々な特徴を備えています。
Janusからの進化
DeepSeek Janus Proは、前身モデルである「Janus」のアーキテクチャを基盤としつつ、以下の3つの点で進化を遂げています。
- 最適化されたトレーニング戦略
3段階のトレーニングプロセス (後述) を採用することで、学習効率を高め、モデルの性能を最大限に引き出しています。
- 拡張されたトレーニングデータ
より多様で高品質なデータセットを用いることで、モデルの理解力と生成能力を向上させています。
- **より大きなモデルサイズ
** 1B (10億) パラメータと 7B (70億) パラメータの2つのモデルサイズが用意されており、より複雑なタスクに対応できるようになりました。
これらの進化により、DeepSeek Janus Pro は、マルチモーダル理解と画像生成の両方で、従来モデルを凌駕する性能を実現しています。
JanusとJanus Proの生成画像の比較 (参考:Github
アーキテクチャ
DeepSeek Janus Proのアーキテクチャは、前身モデルのJanusと同様に、自己回帰トランスフォーマー をベースとしています。
最大の特徴は、視覚エンコーディングを 「Und. Encoder (Understanding Encoder)」 と 「Gen. Encoder (Generation Encoder)」 の2つに分離している点です。
DeepSeek Janus Proのアーキテクチャ図 (参考:Github
この分離により、以下のようにそれぞれのタスクに特化した処理が可能になり、性能が向上します。
- マルチモーダル理解タスク
Und. Encoder が画像の特徴を抽出し、言語モデルがそれに基づいて応答を生成
- 画像生成タスク
Gen. Encoder がテキストの指示に基づいて画像の特徴を抽出し、画像デコーダーがそれを基に画像を生成
学習方法
DeepSeek Janus Pro の学習は、以下の3つの段階を経て行われます。
-
Unified Pretraining (統一事前学習):
- すべてのコンポーネント (Und. Encoder, Gen. Encoder, 言語モデル) のパラメータを更新しながら、大規模なデータセットで事前学習を行います。
- ImageNet データセットで学習することで、モデルは画像の特徴を効率的に捉えられるようになります。
-
Understanding Encoder と Generation Encoder のパラメータ固定:
- Und. Encoder と Gen. Encoder のパラメータを固定し、言語モデルのパラメータのみを更新します。
- この段階では、主にテキスト to 画像生成のデータを用いて学習を行います。
-
Supervised Fine-tuning (教師あり微調整):
- 高品質なデータセットを用いて、モデル全体を微調整します。
- マルチモーダル理解タスクと画像生成タスクのデータを組み合わせることで、両方の性能を向上させます。
この3段階の学習戦略により、DeepSeek Janus Pro は、効率的かつ効果的に学習を進め、高い性能を獲得しています。
データセット
DeepSeek Janus Pro は、学習データの質と量にもこだわっています。
-
マルチモーダル理解:
- DeepSeek-VL2 (DeepSeek の視覚言語モデル) で使用されたデータ
- YFCC, LAION などの大規模な画像キャプションデータ
- テーブル、チャート、ドキュメント理解に関するデータ
- MEME understanding, Chinese conversational data, dialogue experiences などを含むデータセット
-
視覚生成:
- 高品質な画像と、それに対応する詳細なキャプションデータ
- ノイズの多いデータと高品質なデータの比率を 1:1 に調整
これらの多様なデータセットを用いることで、DeepSeek Janus Pro は、幅広い種類の画像やテキストを理解し、高品質な画像を生成する能力を獲得しています。
モデルサイズ
DeepSeek Janus Proには、以下の2つのモデルサイズが用意されています。
- Janus-Pro-1B: 10億パラメータ
- Janus-Pro-7B: 70億パラメータ
一般的に、モデルサイズが大きいほど性能は向上しますが、計算リソースも多く必要になります。
利用シーンや目的に応じて、適切なモデルサイズを選択することが重要です。
DeepSeek Janus Proの性能
DeepSeek Janus Pro は、様々なベンチマークテストにおいて、既存のモデルを上回る性能を示しています。
ベンチマーク結果
以下は、DeepSeek Janus Pro の主なベンチマーク結果です。
ベンチマーク | タスク | DeepSeek Janus Pro-1B | DeepSeek Janus Pro-7B | 競合モデル (例) |
---|---|---|---|---|
マルチモーダル理解 (平均) | 約64 | 約66 | LLaVA-v1.5-7B, VILA-U, Emu3-Chat | |
GenEval | text to image (指示追従) | - | 80.0% | SDXL (55.0%), SDv1.5 (43.0%), PixArt-a (74.0%), DALL-E 3 (67.0%), Emu3-Gen (48.0%) |
DPG-Bench | text to image (詳細なプロンプトへの対応) | - | 84.2% | SDXL (83.5%), SDv1.5 (84.1%), Janus (63.2%) |
既存モデルとの比較
DeepSeek Janus Pro は競合モデルと比較して、同等またはそれ以上の性能を示しています。
- マルチモーダル理解: LLaVA, VILA などの既存の統一モデル
- テキスト to 画像生成: DALL-E 3, Stable Diffusion 3 Medium などのタスク特化型モデル
特に、7Bモデルは、より大きなモデルサイズの競合モデルと比較しても、遜色ない、あるいは上回る結果を出しており、その効率性の高さが際立っています。
DeepSeek Janus Proの使い方
DeepSeek Janus Pro は、以下の方法で利用できます。
Hugging Faceからダウンロード
DeepSeek Janus Proのモデルは、Hugging Face Hub からダウンロードできます。
- Janus-Pro-1B: https://huggingface.co/deepseek-ai/Janus-Pro-1B
- Janus-Pro-7B: https://huggingface.co/deepseek-ai/Janus-Pro-7B
オンラインデモ(Hugging Face)
Hugging Face Spaces では、DeepSeek Janus Pro-7B のオンラインデモが公開されています。
DeepSeek Janus Pro-7B のオンラインデモ
このデモを利用することで、ブラウザ上からDeepSeek Janus Pro の性能を体験できます。
DeepSeek Janus Pro-7B https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
クイックスタート
DeepSeek Janus Pro の GitHub リポジトリには、モデルの利用方法を解説したクイックスタートガイドが用意されています。
- DeepSeek Janus Pro: https://github.com/deepseek-ai/Janus (「Quick Start」セクションを参照)
このガイドに従うことで、DeepSeek Janus Proを自分の環境で動かすことができます。
DeepSeek Janus Proのライセンスについて
DeepSeek Janus Pro の利用にあたっては、ライセンスに注意する必要があります。
- コード: MITライセンス (商用利用、改変、再配布が可能)
- モデル: DeepSeekモデルライセンス (商用利用可能)
まとめ
本記事では、DeepSeek-AI が開発した最新のマルチモーダルモデル、DeepSeek Janus Pro について解説しました。
DeepSeek Janus Pro は、
- マルチモーダル理解と画像生成の両方で高い性能を発揮
- 独自のアーキテクチャと学習戦略により、効率性と性能を両立
- Hugging Face からダウンロード可能で、オンラインデモも利用可能
- 商用利用可能なライセンスで公開
といった特徴を持ち、今後のAI開発に大きな影響を与える可能性を秘めたモデルです。
ぜひ、DeepSeek Janus Pro を活用して、新たな可能性を切り開いてください。