こんにちは。
今回は、Microsoft Azure の Data Factory を自分の知識の整理のために、簡単にまとめてみようと思います。
まだ、Azure Data Factory を使ったことがない方には、参考になることもあるかもしれませんが、
すでに使っている方には、あまり参考にならないかも。。。。
Azure Data Factoy とは
各種ログの中身を分析する場合は、ログであるよりも DWH とかに格納されている方が分析しやすいじゃないですか。
そうなると、ログを DWH に移してあげる必要が出てきます。
こういう時に、Azure Data Factory を使って、あげる感じです。
以下、ドキュメントより引用しました。
Azure Data Factory は、このようなデータ シナリオを解決するプラットフォームです。 そのクラウドベースのデータ統合サービスを通じて、データの移動と変換を制御して自動化するデータ主導型のワークフローをクラウドに作成することができます。 Azure Data Factory を使えば、各種のデータ ストアからデータを取り込むことができるデータ主導型のワークフロー (パイプライン) を作成し、スケジューリングできます。 そのデータは、Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure Machine Learning などのコンピューティング サービスを使って処理し、変換することができます。
■参考
■バージョン
なお、Azure Data Factory は、V1 と V2 の 2 つのバージョンがありますが、本記事では、V2 をターゲットとして記載します。
もし、V1 と V2 での機能を比較した情報が欲しい場合は、以下のサイトをご覧ください。
■リージョン
現時点で Azure Data Factory が利用できるリージョンは下記となります。
- 米国東部
- 米国東部2
- 米国中西部
- 米国西部
- 米国西部2
- 北ヨーロッパ
- 西ヨーロッパ
- 東南アジア
ちなみに、V1 と V2 でも利用できるリージョンは異なります。
※ V2 の方が多い
利用できるリージョンも増えてくる可能性がありますので、最新の情報は以下のサイトでご確認ください。
機能を知るためにまずは、一度リソースを作っちゃいましょう。
Azure Data Factory の作成
今回は、ポータルからポチポチして作成します。
新規作成から作成します。
選ぶのは、「Data Factory」です。
※ Azure Data Factory Analytics (Preview) は、OMS のソリューションです。
リソース名などを入力して、「Create」します。
サービスが出来上がったら、「Author & Monitor」をポチってすると、Azure Data Factorory UI が開きます。
Azure Data Factory UI が開くとこんな感じです。
左のメニューの鉛筆マークのところから、Datasets や、 Pipelines が設定できます。
こんな感じ。
ってことなので、Datasets と Pipelines の概要と関係性がわかればひとまず使うるようになりそうですね。
まぁー、名前のまんまなのですが。。。
DataSets と Pipelines
Datasets
まずは、DataSets からです。
単純に言うとデータを出し入れする器です。
現時点(2018/08/14)では、以下の種類サービスが使えます。
いっぱいありますね。
- Amazon Marketplace Web Service (Preview)
- Amazon Redshift
- Amazon S3
- Apache Impala (Preview)
- Azure Blob Storage
- Azure Cosmos DB
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2 (Preview)
- Azure Database for MySQL
- Azure Database for PostgreSQL
- Azure File Storage
- Azure SQL Data Warehouse
- Azure SQL Database
- Azure Search
- Azure Table Storage
- Cassandra
- Common Data Service for Apps
- Concur (Preview)
- Couchbase (Preview)
- DB2
- Drill (Preview)
- Dynamics 365
- Dynamics CRM
- FTP
- File System
- GE Historian
- Google BigQuery
- Greenplum
- HBase
- HDFS
- HTTP
- Hive
- HubSpot (Preview)
- Informix
- Jira (Preview)
- Magento (Preview)
- MariaDB
- Marketo (Preview)
- Microsoft Access
- MongoDB
- MySQL
- Netezza
- ODBC
- OData
- Oracle
- Oracle Eloqua (Preview)
- Oracle Responsys (Preview)
- Paypal (Preview)
- Phoenix
- PostgreSQL
- Presto (Preview)
- QuickBooks (Preview)
- SAP BW
- SAP Cloud For Customer
- SAP ECC
- SAP HANA
- SFTP
- SQL Server
- Salesforce
- Salesforce Marketing Cloud (Preview)
- Salesforce Service Cloud
- ServiceNow
- Shopify (Preview)
- Spark
- Square (Preview)
- Sybase
- Teradata
- Vertica
- Web Table
- Xero (Preview)
- Zoho (Preview)
Pipelines
Datasets をつないで処理をする部分です。こちらもいろいろ選択することができます。
- Azure Batch Service
- Azure Databrics
- Azure Data Lake Analytics
- Azure HDInsight
- Azure Machine Learning
このほかに、Copy Data とかループなどの処理が選べます。
まとめ
データを加工する部分については、Azure Batch Service や HDInsight で行い、そこにデータを流し込む機能として、Azure Data Factory があります。
これを効率的に使うことで、データの流し込みがやりやすくなりはずです。
コメント