Azure Data Factory 簡単まとめ

Azure

こんにちは。

今回は、Microsoft Azure の Data Factory を自分の知識の整理のために、簡単にまとめてみようと思います。

まだ、Azure Data Factory を使ったことがない方には、参考になることもあるかもしれませんが、

すでに使っている方には、あまり参考にならないかも。。。。

 

Azure Data Factoy とは

 

各種ログの中身を分析する場合は、ログであるよりも DWH とかに格納されている方が分析しやすいじゃないですか。

そうなると、ログを DWH に移してあげる必要が出てきます。

 

こういう時に、Azure Data Factory を使って、あげる感じです。

以下、ドキュメントより引用しました。

Azure Data Factory は、このようなデータ シナリオを解決するプラットフォームです。 そのクラウドベースのデータ統合サービスを通じて、データの移動と変換を制御して自動化するデータ主導型のワークフローをクラウドに作成することができます。 Azure Data Factory を使えば、各種のデータ ストアからデータを取り込むことができるデータ主導型のワークフロー (パイプライン) を作成し、スケジューリングできます。 そのデータは、Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure Machine Learning などのコンピューティング サービスを使って処理し、変換することができます。

 

 

■参考

Azure Data Factory の概要 - Azure Data Factory
データの移動と変換を調整、自動化するクラウド データ統合サービスである Azure Data Factory について説明します。

 

■バージョン

なお、Azure Data Factory は、V1 と V2 の 2 つのバージョンがありますが、本記事では、V2 をターゲットとして記載します。

もし、V1 と V2 での機能を比較した情報が欲しい場合は、以下のサイトをご覧ください。

Azure Data Factory のドキュメント - Azure Data Factory
クラウド データ統合サービスである Data Factory を使用して、データの保管、移行、および処理のサービスを自動化データ パイプラインにまとめる方法について説明します。 チュートリアルなどのドキュメントでは、データ パイプラインの設...

 

■リージョン

現時点で Azure Data Factory が利用できるリージョンは下記となります。

  • 米国東部
  • 米国東部2
  • 米国中西部
  • 米国西部
  • 米国西部2
  • 北ヨーロッパ
  • 西ヨーロッパ
  • 東南アジア

ちなみに、V1 と V2 でも利用できるリージョンは異なります。

※ V2 の方が多い

 

利用できるリージョンも増えてくる可能性がありますので、最新の情報は以下のサイトでご確認ください。

リージョン別の Azure 製品 | Microsoft Azure
リージョンごとに利用可能な Azure の製品と機能をご確認ください。Azure では、お客様やお客様の顧客に適したデータセンターとリージョンを簡単に選択できます。

 

機能を知るためにまずは、一度リソースを作っちゃいましょう。

Azure Data Factory の作成

今回は、ポータルからポチポチして作成します。

 

新規作成から作成します。

選ぶのは、「Data Factory」です。

※ Azure Data Factory Analytics (Preview) は、OMS のソリューションです。

 

リソース名などを入力して、「Create」します。

 

サービスが出来上がったら、「Author & Monitor」をポチってすると、Azure Data Factorory UI が開きます。

 

Azure Data Factory UI が開くとこんな感じです。

左のメニューの鉛筆マークのところから、Datasets や、 Pipelines が設定できます。

 

こんな感じ。

 

ってことなので、Datasets と Pipelines の概要と関係性がわかればひとまず使うるようになりそうですね。

まぁー、名前のまんまなのですが。。。

 

DataSets と Pipelines

Datasets

まずは、DataSets からです。

単純に言うとデータを出し入れする器です。

現時点(2018/08/14)では、以下の種類サービスが使えます。

いっぱいありますね。

  • Amazon Marketplace Web Service (Preview)
  • Amazon Redshift
  • Amazon S3
  • Apache Impala (Preview)
  • Azure Blob Storage
  • Azure Cosmos DB
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2 (Preview)
  • Azure Database for MySQL
  • Azure Database for PostgreSQL
  • Azure File Storage
  • Azure SQL Data Warehouse
  • Azure SQL Database
  • Azure Search
  • Azure Table Storage
  • Cassandra
  • Common Data Service for Apps
  • Concur (Preview)
  • Couchbase (Preview)
  • DB2
  • Drill (Preview)
  • Dynamics 365
  • Dynamics CRM
  • FTP
  • File System
  • GE Historian
  • Google BigQuery
  • Greenplum
  • HBase
  • HDFS
  • HTTP
  • Hive
  • HubSpot (Preview)
  • Informix
  • Jira (Preview)
  • Magento (Preview)
  • MariaDB
  • Marketo (Preview)
  • Microsoft Access
  • MongoDB
  • MySQL
  • Netezza
  • ODBC
  • OData
  • Oracle
  • Oracle Eloqua (Preview)
  • Oracle Responsys (Preview)
  • Paypal (Preview)
  • Phoenix
  • PostgreSQL
  • Presto (Preview)
  • QuickBooks (Preview)
  • SAP BW
  • SAP Cloud For Customer
  • SAP ECC
  • SAP HANA
  • SFTP
  • SQL Server
  • Salesforce
  • Salesforce Marketing Cloud (Preview)
  • Salesforce Service Cloud
  • ServiceNow
  • Shopify (Preview)
  • Spark
  • Square (Preview)
  • Sybase
  • Teradata
  • Vertica
  • Web Table
  • Xero (Preview)
  • Zoho (Preview)

 

Pipelines

Datasets をつないで処理をする部分です。こちらもいろいろ選択することができます。

  • Azure Batch Service
  • Azure Databrics
  • Azure Data Lake Analytics
  • Azure HDInsight
  • Azure Machine Learning

このほかに、Copy Data とかループなどの処理が選べます。

 

まとめ

データを加工する部分については、Azure Batch Service や HDInsight で行い、そこにデータを流し込む機能として、Azure Data Factory があります。

これを効率的に使うことで、データの流し込みがやりやすくなりはずです。

 

 

コメント

タイトルとURLをコピーしました