AI総合研究所

NVIDIAが開発した生成AIモデル向けデータセットキュレーションフレームワークNeMo Curatorの紹介

この記事のポイント

  • NVIDIAによる新しいオープンソースフレームワーク「NeMo Curator」について紹介しております。
  • ユーザーはNeMo Curatorを使用して、簡単に高品質なAIモデル用データセットの収集や整理を自動化することができます。
  • 出力されるデータセットはJSONL形式で提供され、AIトレーニングに直接活用可能です。
  • GitHubを通じて、NeMo Curatorのコードは公開されており、誰もがアクセスすることができます。
  • マイクロサービスを介して大企業のニーズにも対応しており、大規模なプロジェクトへの適用が可能です。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

AIモデルのトレーニングには質の高いデータセットが欠かせません。
そんな中、NVIDIAが開発した「NeMo Curator」は、効果的なデータセットキュレーションを実現するためのオープンソースのフレームワークとして注目を集めています。

インターネット上の広範囲な情報源から必要なデータを自動収集・整理し、トレーニングに適した形式で提供することができるこのツールの機能とメリットを紹介します。

また、安定したパフォーマンスを備えたこのツールがどのようにして大規模な環境での利用にも対応しているのか、その利便性と多機能性を解説いたします。

thumbnail

NVIDIAが発表したAIデータキュレーションツール「NeMo Curator」

NVIDIAはAI分野の新しいツール「NeMo Curator」を発表しました。
このツールは、AIモデルをトレーニングするためのデータセットを簡単に集めて整理することが可能な、オープンソースのフレームワークです。

つまり、NeMo Curatorを使えば、インターネット上の膨大な情報源から、必要なデータを自動で集め、それをきれいに整えて使いやすい形にすることができるのです。

たとえば、ウェブサイトやWikipedia、さらには学術論文を公開しているarXivなどからデータを集めることが可能です。
このツールは、データのダウンロードから、処理、フィルタリング、重複する情報の削除、個人を特定できる情報の除去など、データキュレーションに必要な一連の作業を自動で行います。

最終的には、整理されたデータセットがJSONL形式で出力されるため、AIモデルのトレーニングに直接使用することができます。

NeMo Curatorの使い方と特徴

NeMo Curatorは、データキュレーションを行うためのさまざまなツールを含んでいます。
これには、DocumentDownloader、DocumentIterator、DocumentExtractorといったデータ処理クラスがあります。

これらのクラスを使うことで、ユーザーは自分のニーズに合わせてカスタムデータキュレーションパイプラインを構築することができます。
また、Sequentialクラスを利用することで、複数の処理を順番に実行することが可能です。

これにより、効率的にデータセットを整理することができ、AIモデルのトレーニングデータとしての質を向上させることができます。

さらに、このフレームワークは標準的なコンピューターハードウェアでスムーズに動作する設計となっており、コードはNVIDIAのGitHubページで誰でもアクセスできるようになっています。
➡️Github:NVIDEA/NeMo-Curator

エンタープライズ(大企業)のニーズに応じて、マイクロサービスを通じたアクセスも可能です。これにより、大規模なプロジェクトでもNeMo Curatorを活用することができます。

出典:NVIDEA

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

ご相談
お問い合わせは
こちら!