2025-02-19

【DeepSeek】画像生成AIモデル「Janus Pro」とは何かをわかりやすく解説

この記事のポイント

DeepSeek Janus Proは、画像理解と画像生成の両タスクで高い性能を発揮するAIモデル
独自のアーキテクチャと3段階の学習戦略で、効率性と性能を両立
1Bと7Bの2つのモデルサイズがあり、用途に応じて選択可能
Hugging Faceからダウンロード可能、オンラインデモも利用可能
コードはMIT、モデルはDeepSeekモデルライセンスで商用利用も可能

監修者プロフィール

坂本将磨

フォローする

Microsoft MVP・AIパートナー。LinkX Japan株式会社代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

AIモデルは進化を続けていますが、画像認識と画像生成を1つのモデルで同時に高いレベルで実現することは、長い間、困難な課題とされてきました。
従来のモデルでは、どちらかのタスクに特化するか、両方のタスクに対応しようとすると性能が低下してしまう、という問題がありました。

その常識を覆すのがDeepSeekが開発した「Janus Pro」です。

本記事では、DeepSeek Janus Proについて、基礎から応用までをわかりやすく解説します。
特徴、性能、既存モデルとの比較、使い方、そしてライセンスまで、幅広く網羅的に説明します。

DeepSeek Janus Proとは？

DeepSeek Janus Proの特徴

DeepSeek Janus Proの性能

ベンチマーク結果

既存モデルとの比較

DeepSeek Janus Proの使い方

Hugging Faceからダウンロード

オンラインデモ(Hugging Face)

クイックスタート

DeepSeek Janus Proのライセンスについて

まとめ

DeepSeek Janus Proとは？

DeepSeek Janus Pro は、DeepSeek が開発した、マルチモーダル理解と画像生成の両方に優れた性能を発揮する、最先端のAIモデルです。

従来のモデルでは、画像認識 (マルチモーダル理解) と画像生成を1つのモデルで同時に行うと、性能が低下する傾向がありました。

しかし、DeepSeek Janus Pro は、独自のアーキテクチャと学習戦略を採用することで、この問題を克服し、両方のタスクで高い性能を実現しています。

Janus Proの性能
Janus Proのパフォーマンス (参考:Github

DeepSeek Janus Proの特徴

DeepSeek Janus Proは、従来のマルチモーダルモデルの限界を打破する、様々な特徴を備えています。

Janusからの進化

DeepSeek Janus Proは、前身モデルである「Janus」のアーキテクチャを基盤としつつ、以下の3つの点で進化を遂げています。

最適化されたトレーニング戦略
3段階のトレーニングプロセス (後述) を採用することで、学習効率を高め、モデルの性能を最大限に引き出しています。
拡張されたトレーニングデータ
より多様で高品質なデータセットを用いることで、モデルの理解力と生成能力を向上させています。
**より大きなモデルサイズ
** 1B (10億) パラメータと 7B (70億) パラメータの2つのモデルサイズが用意されており、より複雑なタスクに対応できるようになりました。

これらの進化により、DeepSeek Janus Pro は、マルチモーダル理解と画像生成の両方で、従来モデルを凌駕する性能を実現しています。

JanusとJanus Proの生成画像の比較 (参考:Github

アーキテクチャ

DeepSeek Janus Proのアーキテクチャは、前身モデルのJanusと同様に、自己回帰トランスフォーマー をベースとしています。

最大の特徴は、視覚エンコーディングを「Und. Encoder (Understanding Encoder)」と「Gen. Encoder (Generation Encoder)」の2つに分離している点です。

janusproの構成図
DeepSeek Janus Proのアーキテクチャ図 (参考:Github

この分離により、以下のようにそれぞれのタスクに特化した処理が可能になり、性能が向上します。

マルチモーダル理解タスク
Und. Encoder が画像の特徴を抽出し、言語モデルがそれに基づいて応答を生成
画像生成タスク
Gen. Encoder がテキストの指示に基づいて画像の特徴を抽出し、画像デコーダーがそれを基に画像を生成

学習方法

DeepSeek Janus Pro の学習は、以下の3つの段階を経て行われます。

Unified Pretraining (統一事前学習):
- すべてのコンポーネント (Und. Encoder, Gen. Encoder, 言語モデル) のパラメータを更新しながら、大規模なデータセットで事前学習を行います。
- ImageNet データセットで学習することで、モデルは画像の特徴を効率的に捉えられるようになります。
Understanding Encoder と Generation Encoder のパラメータ固定:
- Und. Encoder と Gen. Encoder のパラメータを固定し、言語モデルのパラメータのみを更新します。
- この段階では、主にテキスト to 画像生成のデータを用いて学習を行います。
Supervised Fine-tuning (教師あり微調整):
- 高品質なデータセットを用いて、モデル全体を微調整します。
- マルチモーダル理解タスクと画像生成タスクのデータを組み合わせることで、両方の性能を向上させます。

この3段階の学習戦略により、DeepSeek Janus Pro は、効率的かつ効果的に学習を進め、高い性能を獲得しています。

データセット

DeepSeek Janus Pro は、学習データの質と量にもこだわっています。

マルチモーダル理解:
- DeepSeek-VL2 (DeepSeek の視覚言語モデル) で使用されたデータ
- YFCC, LAION などの大規模な画像キャプションデータ
- テーブル、チャート、ドキュメント理解に関するデータ
- MEME understanding, Chinese conversational data, dialogue experiences などを含むデータセット
視覚生成:
- 高品質な画像と、それに対応する詳細なキャプションデータ
- ノイズの多いデータと高品質なデータの比率を 1:1 に調整

これらの多様なデータセットを用いることで、DeepSeek Janus Pro は、幅広い種類の画像やテキストを理解し、高品質な画像を生成する能力を獲得しています。

モデルサイズ

DeepSeek Janus Proには、以下の2つのモデルサイズが用意されています。

Janus-Pro-1B: 10億パラメータ
Janus-Pro-7B: 70億パラメータ

一般的に、モデルサイズが大きいほど性能は向上しますが、計算リソースも多く必要になります。
利用シーンや目的に応じて、適切なモデルサイズを選択することが重要です。

DeepSeek Janus Proの性能

DeepSeek Janus Pro は、様々なベンチマークテストにおいて、既存のモデルを上回る性能を示しています。

ベンチマーク結果

以下は、DeepSeek Janus Pro の主なベンチマーク結果です。

ベンチマーク	タスク	DeepSeek Janus Pro-1B	DeepSeek Janus Pro-7B	競合モデル (例)
マルチモーダル理解 (平均)		約64	約66	LLaVA-v1.5-7B, VILA-U, Emu3-Chat
GenEval	text to image (指示追従)	-	80.0%	SDXL (55.0%), SDv1.5 (43.0%), PixArt-a (74.0%), DALL-E 3 (67.0%), Emu3-Gen (48.0%)
DPG-Bench	text to image (詳細なプロンプトへの対応)	-	84.2%	SDXL (83.5%), SDv1.5 (84.1%), Janus (63.2%)