2024-05-25

次世代多言語・マルチモーダルAIモデルFalcon 2の全貌

この記事のポイント

この記事は、新たに公開されたマルチモーダルAIモデル「Falcon2」の特徴と能力について説明しています。
Falcon2は、50億以上のトークンで学習された110億のパラメータを持つ次世代AIモデルです。
開発者に向けてGitHubで公開されており、11の言語への対応とともにテキストおよび画像理解能力を有しています。
AIモデルは高品質なデータセット「RefinedWeb」を使用し、最適化されたトレーニングプロセスを経て性能が向上しています。
「Falcon2」の使い方として、transformersライブラリを用いた簡単なコーディングを介してテキスト生成や画像入力に対応したビジョン言語モデルとしての活用が可能です。

監修者プロフィール

坂本将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域：自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AI技術の革新は日進月歩で進化を遂げており、今回新しく登場した「Falcon2」は、その最前線を行く多言語・マルチモーダルAIモデルです。

本記事では、110億のパラメータを搭載し、50億以上のトークンで学習されたこの次世代のAIモデルについて、機能やパフォーマンス、さらには多彩な言語への対応状況を詳細に解説しています。
画像とテキストの双方を理解する能力を持つFalcon2の可能性に、開発者や研究者だけでなく、技術に関心のある多くの読者が注目しています。

ここでは、AIモデル「Falcon2」の全貌をご紹介し、その革新的な特徴と気になる評価結果について解説していきます。

多言語に対応した新AIモデル「Falcon2」の登場

「Falcon2」のトレーニングとアーキテクチャ

「Falcon2」の性能評価

「Falcon2」の実用方法とビジョン言語モデル（VLM）

多言語に対応した新AIモデル「Falcon2」の登場

2024年5月24日、新しい人工知能モデル「Falcon2」が公開されました。
このモデルは、11B（110億）のパラメータを持ち、5000B（50億）以上のトークンと11の言語で学習されています。Falcon2はGitHubで更新され、開発者コミュニティによって支えられています。

この新世代のモデルは、推論コストを下げることで、より多くのアプリケーションの開発を促進し、使いやすさを向上させることを目指しています。
Falcon2-11Bは、英語をメインにサポートしつつ、スペイン語やフランス語など他の10の言語でも優れた能力を発揮します。

このモデルは、テキストだけでなく、画像理解能力を持つバージョン（VLM）もリリースされており、ユーザーがテキストを使って視覚コンテンツについてのチャットを行うことが可能になっています。

「Falcon2」のトレーニングとアーキテクチャ

Falcon2-11Bのトレーニングには、高品質なウェブデータセット「RefinedWeb」が使用されました。このデータセットはフィルタリングされ、重複がないことが特徴です。

トレーニングは4段階にわたって行われ、各ステージでコンテキスト長を増やすことに焦点が置かれました。最終段階では、より高品質のデータのみを使ってパフォーマンスを向上させることが目的でした。

また、モデルアーキテクチャは60のトランスフォーマーブロック、32のクエリヘッド、8のキー/バリューヘッド、128のヘッド寸法を持ち、MLPアップスケールファクターは4です。

トレーニングプロセスには1024のA100 40GB GPUが使用され、3D並列化戦略とZeROおよびFlash-Attention 2が組み合わせられました。

「Falcon2」の性能評価

「Falcon2」の英語でのパフォーマンスは、Open LLM Leaderboardタスクで高い評価を受けています。
また、多言語能力に関しても、Falcon2-11Bはドイツ語、スペイン語、フランス語など11の言語でのタスクをこなし、Falcon-40BやFalcon-7Bなどの他のモデルと比較しても優れた成果を見せています。

さらに、コード生成能力ではHumanEvalベンチマークでのBigCodeリーダーボードにおいても良好な結果を達成しており、pass@1は29.59％となっています。

Open LLMリーダーボード

「Falcon2」の実用方法とビジョン言語モデル（VLM）

「Falcon2」を活用するには、transformersライブラリを利用し、簡単なコードを記述するだけでテキスト生成が行えます。
Falcon2-11B VLMは、画像入力に対応したビジョン言語モデルで、事前学習されたCLIP ViT-L/14ビジョンエンコーダと統合され、画像テキストデータで学習されています。

トレーニングは2段階で行われ、細かいディテールに対する認識能力を向上させています。評価結果として、MME、GQA、SQAなどのタスクで高いスコアを獲得しており、平均スコアは74.4となっています。

出典:Hugging Face