2024-05-22

NVIDIAが開発した生成AIモデル向けデータセットキュレーションフレームワークNeMo Curatorの紹介

この記事のポイント

NVIDIAによる新しいオープンソースフレームワーク「NeMo Curator」について紹介しております。
ユーザーはNeMo Curatorを使用して、簡単に高品質なAIモデル用データセットの収集や整理を自動化することができます。
出力されるデータセットはJSONL形式で提供され、AIトレーニングに直接活用可能です。
GitHubを通じて、NeMo Curatorのコードは公開されており、誰もがアクセスすることができます。
マイクロサービスを介して大企業のニーズにも対応しており、大規模なプロジェクトへの適用が可能です。

監修者プロフィール

坂本将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域：自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AIモデルのトレーニングには質の高いデータセットが欠かせません。
そんな中、NVIDIAが開発した「NeMo Curator」は、効果的なデータセットキュレーションを実現するためのオープンソースのフレームワークとして注目を集めています。

インターネット上の広範囲な情報源から必要なデータを自動収集・整理し、トレーニングに適した形式で提供することができるこのツールの機能とメリットを紹介します。

また、安定したパフォーマンスを備えたこのツールがどのようにして大規模な環境での利用にも対応しているのか、その利便性と多機能性を解説いたします。

NVIDIAが発表したAIデータキュレーションツール「NeMo Curator」

NeMo Curatorの使い方と特徴

thumbnail

NVIDIAが発表したAIデータキュレーションツール「NeMo Curator」

NVIDIAはAI分野の新しいツール「NeMo Curator」を発表しました。
このツールは、AIモデルをトレーニングするためのデータセットを簡単に集めて整理することが可能な、オープンソースのフレームワークです。

つまり、NeMo Curatorを使えば、インターネット上の膨大な情報源から、必要なデータを自動で集め、それをきれいに整えて使いやすい形にすることができるのです。

たとえば、ウェブサイトやWikipedia、さらには学術論文を公開しているarXivなどからデータを集めることが可能です。
このツールは、データのダウンロードから、処理、フィルタリング、重複する情報の削除、個人を特定できる情報の除去など、データキュレーションに必要な一連の作業を自動で行います。

最終的には、整理されたデータセットがJSONL形式で出力されるため、AIモデルのトレーニングに直接使用することができます。

NeMo Curatorの使い方と特徴

NeMo Curatorは、データキュレーションを行うためのさまざまなツールを含んでいます。
これには、DocumentDownloader、DocumentIterator、DocumentExtractorといったデータ処理クラスがあります。

これらのクラスを使うことで、ユーザーは自分のニーズに合わせてカスタムデータキュレーションパイプラインを構築することができます。
また、Sequentialクラスを利用することで、複数の処理を順番に実行することが可能です。

これにより、効率的にデータセットを整理することができ、AIモデルのトレーニングデータとしての質を向上させることができます。

さらに、このフレームワークは標準的なコンピューターハードウェアでスムーズに動作する設計となっており、コードはNVIDIAのGitHubページで誰でもアクセスできるようになっています。
➡️Github:NVIDEA/NeMo-Curator

エンタープライズ（大企業）のニーズに応じて、マイクロサービスを通じたアクセスも可能です。これにより、大規模なプロジェクトでもNeMo Curatorを活用することができます。

出典:NVIDEA

NVIDIAが開発した生成AIモデル向けデータセットキュレーションフレームワークNeMo Curatorの紹介

NVIDIAが発表したAIデータキュレーションツール「NeMo Curator」

NeMo Curatorの使い方と特徴

AI時代のプライバシー保護と身元証明: Personhood Credentialsの新提案

Grok-2とGrok-2 mini：xAIが切り開く次世代AI

GitHubがAI統合を強化する新機能GitHub Modelsを発表

Microsoft、新しいWindows用Outlookをリリース - AI機能とシームレスな統合が特徴

Windows 365三周年：ハイブリッドワークとビジネス回復力を支える最新アップデート発表