iMind Developers Blog

iMind開発者ブログ

airflow

Airflowでpythonのコードをspark-submit

概要 AirflowのSparkSubmitOperatorを使ってPySparkのスクリプトファイルをspark-submitで実行する。 バージョン情報 Python 3.6.7 apache-airflow==1.10.1 spark 2.3.1 PySpark側のコード 適当にHDFS上のファイルを読み込んで行数をcountするコードを書いて…

AirflowのSSHOperatorを使う

概要 AirflowのSSHOperatorで指定のサーバーにsshしてコマンドを実行する。 バージョン情報 apache-airflow==1.10.2 Python 3.6.8 SSHOperatorの引数 SSHOperator実行時はこのへんのパラメータを指定する。 parameter description ssh_conn_id ConnectionのI…

Airflowでタスク失敗時にSlackへメッセージを送る

概要 Airflowのタスクが失敗した際にSlackにメッセージを送るようにする。 トークン等はVariablesに保存して扱う。 バージョン情報 Python 3.6.7 apache-airflow==1.10.1 slackclient==1.3.0 導入 slackclientが必要になるので入れておく。 $ pip install sl…

Apache AirflowでHello World

概要 Airflowはスケジューリングやワークフローが制御できるソフトウェア。毎日数十数百のバッチを動かしていて管理が煩雑と感じている人が使うと幸せになれる。 Pythonのスクリプトで記述できたりpipで手軽に入れられるところがPythonユーザー的には使いや…