ETL
仕事でApache AirFlowを使う機会がありましたので、調査がてらに、Dockerで環境を構築し、簡単なジョブを定義します。 AirFlow AirFlowはジョブのスケジューリング・監視を、コード(主にPython)で定義・制御するためのプラットフォームです。ワークフロー、…
前回の投稿(Python: Luigiでデータパイプラインを作る - け日記)では、Pythonのデータパイプラインフレームワーク Luigi を使って依存関係のあるタスクを定義しました。 前回は1つ1つコマンドライン上で実行結果を見ていましたが、今回はCentral Schedulerを…
バッチ処理の実装にLuigiを使う機会があり、少し調べて整理しました。 irisデータセットをダウンロードしてきて、scikit-learnで学習したモデルをS3にアップロードする、簡単なサンプルも作ります。 Luigi Luigiは、データパイプラインを記述するためのPytho…