この記事のポイント
- NVIDIAによる新しいオープンソースフレームワーク「NeMo Curator」について紹介しております。
- ユーザーはNeMo Curatorを使用して、簡単に高品質なAIモデル用データセットの収集や整理を自動化することができます。
- 出力されるデータセットはJSONL形式で提供され、AIトレーニングに直接活用可能です。
- GitHubを通じて、NeMo Curatorのコードは公開されており、誰もがアクセスすることができます。
- マイクロサービスを介して大企業のニーズにも対応しており、大規模なプロジェクトへの適用が可能です。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
AIモデルのトレーニングには質の高いデータセットが欠かせません。
そんな中、NVIDIAが開発した「NeMo Curator」は、効果的なデータセットキュレーションを実現するためのオープンソースのフレームワークとして注目を集めています。
インターネット上の広範囲な情報源から必要なデータを自動収集・整理し、トレーニングに適した形式で提供することができるこのツールの機能とメリットを紹介します。
また、安定したパフォーマンスを備えたこのツールがどのようにして大規模な環境での利用にも対応しているのか、その利便性と多機能性を解説いたします。
NVIDIAが発表したAIデータキュレーションツール「NeMo Curator」
NVIDIAはAI分野の新しいツール「NeMo Curator」を発表しました。
このツールは、AIモデルをトレーニングするためのデータセットを簡単に集めて整理することが可能な、オープンソースのフレームワークです。
つまり、NeMo Curatorを使えば、インターネット上の膨大な情報源から、必要なデータを自動で集め、それをきれいに整えて使いやすい形にすることができるのです。
たとえば、ウェブサイトやWikipedia、さらには学術論文を公開しているarXivなどからデータを集めることが可能です。
このツールは、データのダウンロードから、処理、フィルタリング、重複する情報の削除、個人を特定できる情報の除去など、データキュレーションに必要な一連の作業を自動で行います。
最終的には、整理されたデータセットがJSONL形式で出力されるため、AIモデルのトレーニングに直接使用することができます。
NeMo Curatorの使い方と特徴
NeMo Curatorは、データキュレーションを行うためのさまざまなツールを含んでいます。
これには、DocumentDownloader、DocumentIterator、DocumentExtractorといったデータ処理クラスがあります。
これらのクラスを使うことで、ユーザーは自分のニーズに合わせてカスタムデータキュレーションパイプラインを構築することができます。
また、Sequentialクラスを利用することで、複数の処理を順番に実行することが可能です。
これにより、効率的にデータセットを整理することができ、AIモデルのトレーニングデータとしての質を向上させることができます。
さらに、このフレームワークは標準的なコンピューターハードウェアでスムーズに動作する設計となっており、コードはNVIDIAのGitHubページで誰でもアクセスできるようになっています。
➡️Github:NVIDEA/NeMo-Curator
エンタープライズ(大企業)のニーズに応じて、マイクロサービスを通じたアクセスも可能です。これにより、大規模なプロジェクトでもNeMo Curatorを活用することができます。
出典:NVIDEA