この記事のポイント
- Azure Data Factoryはコードレスでデータの移動・変換を自動化するクラウドベースのデータ統合サービス
- パイプライン、アクティビティ、データセットの3つの主要概念を詳しく説明
- マッピングデータフローを使用したノーコードでのデータ変換プロセスの構築方法を紹介
- 料金体系は使用量に応じた従量課金制で、各サービスタイプの詳細な価格情報を提供
- データ移行、Azure Data Lakeへのデータ取得、ERPシステムからのデータ統合など、具体的な活用事例を紹介
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
Azure Data Factoryは、データ統合のための強力なクラウドベースのサービスですが、その概要や活用方法を理解するのは少し難しく感じるかもしれません。
本記事では、このサービスの基本から応用までを丁寧に説明し、初心者でも十分に理解できるようにします。Azure Data Factoryの主な特徴や利点、実際の使用例、データパイプラインの構築と管理方法などについて、分かりやすく解説します。
データ統合におけるETLプロセスの改善や、ビジネスの現場で役立つ実践的な知識を得ることができるでしょう。Azure Data Factoryの魅力を最大限に引き出すためのノウハウを、ぜひこの記事から学んでみてください。
Azureの基本知識や料金体系、利用方法についてはこちらの記事で詳しく解説しています。
➡️Microsoft Azureとは?できることや各種サービスを徹底解説
Azure Data Factoryとは
Azure Data Factoryイメージ
Azure Data Factory (ADF)は、データを読み込み、加工し、出力するクラウドベースのデータ統合サービスです。ADFはデータを保存するのではなく、データの「抽出と読み込み(EL)」および「変換と読み込み(TL)」というプロセスを駆使して、データの移動と加工を効率的に行います。
これにより、収集したデータを分析可能な形に整え、蓄積することが可能になり、データ統合プラットフォームとしての重要な役割を果たします。
オンプレミスからクラウドのデータストアへのデータ転送や、マシンラーニングモデルの簡単な可視化など、データ駆動型のワークフローの作成と自動化を容易にします。
なぜAzure Data Factoryが必要なのか?
データの移動から変換までのプロセス(EL,TL)をADFを通して自動化することで、データをビジネスの意思決定や分析に役立てやすくすることが可能になるためです。いわゆる、「データの加工を行う場所をつなぎ合わせる、パイプのような役割」を担います。
Azure Data Factoryの役割イメージ
例えば、オンプレミスにあるデータとクラウドで集めたログデータを合わせて分析する場合、ADFはこれらのデータを一箇所に集め、必要な処理を施し、分析用のデータウェアハウスに送ります。これにより、データの一元管理やデータ分析の効率化が実現します。
ADFを使用することの最大の利点は、データを正しい場所に、正しい形で、自動的に移動させることで、データを最大限に活用する手助けをする点にあります。
Azure Data Factoryの特徴
ここでは、ADFの主な特徴をわかりやすく説明していきます。
1. コードなしで利用可能
ADFを使うと、コードを書かなくてもデータ移動や変換のプロセスを簡単に作成できます。つまり、専門的なプログラミング知識がない人でも、データを自由自在に扱えるようになります。
ADF操作画面
2. 豊富なデータ接続
ADFには**、90種類以上のデータソースへの接続**が組み込まれており、様々な場所にあるデータを簡単に一箇所に集めることができます。これにより、データの統合と分析がよりスムーズになります。
豊富なデータ接続先
3. 安全性と信頼性
Microsoftはデータのセキュリティとプライバシーを非常に重視しており、ADFはその厳格なセキュリティ基準に基づいて構築されています。これにより、データが安全に扱われることが保証されます。
ADFの取得している認証テーブル
Data Factory 管理リソースは、Azure のセキュリティインフラストラクチャ上に構築されており、Azure が提供する利用可能なすべてのセキュリティ対策がされています。
【関連記事】
➡️Azureのセキュリティ対策を徹底解説!主要機能や製品、導入事例も
総じて、Azure Data Factoryは、データを簡単に操作し、企業がデータ駆動型の意思決定を行うのを助ける強力なツールです。これにより、データの価値を最大限に引き出し、ビジネスの成長と変革を促進できます。
Azure Data Factoryのの使い方(マッピングデータフロー)
実際のADFの使い方をご紹介します。
ここでは、マッピングデータフローについて説明していきます。
データフローを使用すると、コードを記述することなくデータ変換ロジックを開発することが可能です。
1.データ フローを作成するには、 [Factory Resources]の横にあるプラス記号アイコンを選択して、 [データ フロー] を選択します。
データフロー作成手順1
2.マッピング データ フローには、変換ロジックを簡単に構築するために設計された独自の作成キャンバスがあります。 データフローキャンバスは、上部バー、グラフ、および構成パネルの 3 つの部分に分かれています。
データフロー作成2
3.グラフには変換ストリームが表示されます。 ここにはソース データが 1 つ以上のシンクに流れるときのソース データの系列が表示されます。 新しいソースを追加するには、 [ソースの追加] を選択することでソースを追加することができます。通常であればここで取り込むデータと出力先を設定していきます。
データフロー作成3
今回はセットアップまでの説明でしたが、このようにノーコードでデータ取り込みの設定をすることが可能です。
ADFを理解する際の主要な概念3選
ADFを理解するために重要な、パイプライン、アクティビティ、データセットの3つをご紹介します。
パイプライン
パイプラインの画像
パイプラインは、一連のアクティビティをまとめて実行するためのコンテナです。データの抽出、変換、ロードのプロセスを自動化するワークフローと考えることができます。
パイプラインを使用して、データの移動や加工、分析タスクなどを定義し、スケジュールまたはイベントに基づいて自動的に実行させることができます。図のように、タスクの処理の順番や関連性を線でつないで可視化します。
【関連記事】
→Azure Pipelinesとは?使い方や料金体系、YAMLの書き方を解説
アクティビティ
アクティビティの画像
アクティビティは、以下の図の「赤い四角」と「→」で示されている一つひとつの処理ステップのことを指します。データコピー、データ変換、SQLクエリの実行、データフローの実行など、さまざまなタイプのアクティビティがあります。パイプラインはこれらのアクティビティを組み合わせて、複雑なデータ処理およびデータ統合プロセスを構築します。
データセットとは
データセットは、アクティビティによって処理されるデータの構造 を定義します。これは、データがどのように格納されているか(例えば、テーブル、ファイル、など)と、どのデータソース(例えば、Azure SQL Database、Azure Blob Storageなど)にデータが存在するかを示します。データセットは、アクティビティが操作するデータの入力元や出力先を指定する際に使用されます。
Azure Data Factoryの料金
このセクションではADF V2の価格について解説します。
こちらがAzure Data Factoryの料金に関する情報を表にまとめたものです。
日本リージョンの価格をお示ししています。最新情報はこちらをご覧ください。
サービスの種類 | 料金モデル | 備考 |
---|---|---|
オーケストレーション | ¥151.586/1,000 実行 | アクティビティの実行、トリガーの実行、デバッグ実行を含む |
データ移動アクティビティ | ¥37.897/DIU時間 | Azure データセンターからデータを送信する際には、ネットワーク帯域幅の追加料金が発生する |
パイプライン アクティビティ | ¥0.758/時間 ~ ¥151.586/時間 | 検索、メタデータの取得、削除などを含む。統合ランタイム上で実行される |
外部パイプライン アクティビティ | ¥0.037897/時間 ~ ¥151.586/時間 | Databricks、ストアドプロシージャ、HDInsight のアクティビティなどを含む。外部アクティビティの完全な一覧については、公式ドキュメントを参照。実行はリンクされたサービス上で行われる |
Data Flow の実行とデバッグ | 汎用:仮想コア時間あたり ¥45.817 | 大規模なデータ変換を実現するData Factory内のコンポーネント。最小クラスターサイズは 8 仮想コア |
メモリ最適化:仮想コア時間あたり ¥55.291 | ||
予約割引 | 1 年予約:最大 25% 割引、3 年予約:最大 35% 割引 | 汎用とメモリ最適化の両タイプで利用可能 |
Azure Data Factoryの料金は使用するサービスの種類やアクティビティの量、さらには選択する計算リソースによって変動します。オーケストレーションとデータ移動アクティビティは基本的な機能であり、より複雑なデータ変換や大規模データ処理にはData Flowの使用が推奨されます。また、長期的なプロジェクトには予約割引が有効で、コスト削減につながります。
見積もりは、Microsoftが提供しているAzureの料金ツールから算出することも可能です。
Azure Data Factoryの活用事例
ADFは、データ統合と自動化において様々な活用事例を提供します。データの移動から変換、統合までのプロセスをシンプルにし、効率的にすることで、企業がデータを最大限に活用できるよう支援します。
以下に、ADFを活用した具体的なシナリオを紹介します。
データ移行の支援
ADFを使用して、異なるデータストアやシステム間でのデータ移行を簡単かつ迅速に行うことができます。例えば、既存のデータセンターからクラウド環境への移行 を効率的に実施することが可能です。
【関連記事】
➡️Azureによるビッグデータ管理解説記事
Azure Data Lakeへのデータ取得
クライアントのサーバーやオンラインデータソースからデータを収集し、Azure Data Lakeに蓄積 することで、大規模なデータセットの分析と処理が容易になります。
データ統合プロセスの実行
他のSQLサーバーやSales forceなどの異なるソースからのデータを一元的に集め、統合することで、データの一貫性を保ちつつ、複数のデータソースにわたる分析が可能になります。
これにより、サイロ化されたデータを統合し、必要な処理を実施することが可能となり、データ分析の効率を大幅に向上させます。
ERPシステムからのデータ統合
複数のERPシステムからデータを収集し、Azure Synapse Analyticsに統合してロードすることで、高度な分析とレポーティングを実現します。
Azure Data Factoryの利用シナリオ
ログの分析では、オンプレミスのデータストアにある参照データを使用し、クラウドのデータストアにある追加のログデータと統合して活用することがあります。
ADF導入事例参考:Microsoft
創業から35年以上にわたり、多彩なITサービスを提供してきた企業(ソフトクリエイト社の一例)です。主要な課題の一つは、顧客データを含む社内データをどのように一元管理するかでした。
ADFの活用により、ソフトクリエイトはSalesforceとMicrosoft Dynamics 365の間でデータ連携を実現しました。ADFを選定した理由として、クラウドサービス間の高度な連携能力、豊富なコネクタ数、コーディング不要での簡単なスタート、そしてAzureサービスとの親和性の高さが挙げられます。これにより、ソフトクリエイトは、スモールスタートからトライ&エラーを重ねながら、迅速にデータ連携基盤を構築・リリースすることがでた事例です。
ADFを使用することで、データドリブンのワークフローを作成し、データの移動と変換を自動化することが可能です。これにより、生データを意味のある形式に整理し、より的確な意思決定を支援するデータレイクとデータストアを構築できます。
【関連ページ】
➡️導入事例特集ページ
まとめ
本記事では、データ統合のための強力なクラウドベースのサービスであるAzure Data Factoryについて詳しく解説しました
Azure Data Factoryは、多様なデータソースからのデータ入力や出力を可能にし、データ駆動型ワークフローの作成とETLプロセスの自動化を実現します。
このサービスを適切に活用することで、企業が持つ貴重なデータリソースを最大限に活かし、ビジネスの意思決定やオペレーションの最適化に役立てることができるでしょう。
Azure Data Factoryの基本的な機能から実際の使用例まで、この記事で得た知識を活かして、自社のデータ統合・データ管理の取り組みを一歩前進させてみてください。