iMind Developers Blog

iMind開発者ブログ

AirflowのConnectionやVariableをCLIで投入する

概要 ConnectionやVariableの値はWeb UIから入れられるけど、実運用ではコマンドラインから構築できるようになっていた方が便利。 試しにConnectionとVariableにそれぞれ値を投入してみる。 バージョン情報 Python 3.6.7 apache-airflow==1.10.3 Connections…

hbase shellのコマンドまとめ

概要 HBaseを使う際のコマンドをhbase shellでちょっと確認。 バージョン情報 HBase 1.2.0 hbase shellの起動 $ hbase shell helpの参照 > help 機能ごとのhelpの参照。下記はcreateの例。 > help 'create' テーブル生成 exampleテーブルの生成。 > create '…

pandasのファイル出力形式まとめ

概要 pandasにはcsvやpickle、parquetなど様々な形式でのデータ出力が用意されている。 各出力形式で実際にデータを出力して結果や実行時間を確認してみる。 実行時間はipython上で%%timeを用いて計測。小数点以下はround。記事の最後に実行時間と出力サイズ…

Pythonのpsutilでハードウェアの情報を取得する

概要 psutilでCPUのコア数、ディスクの空き容量、メモリの使用量等、ハードウェアの情報を取得する。 バージョン情報 Python 3.6.8 psutil==4.4.2 Ubuntu 18.04.1 インストール $ pip install psutil CPUのコア数 import psutil psutil.cpu_count() => 8 上…

PythonでElasticsearchの操作

概要 PythonからElasticsearchにデータの登録、検索、削除を行う。 バージョン情報 Python 3.6.8 (elasticsearch==6.3.1) Elasticsarch 6.5.4 導入 PythonのElasticsearchクライアントを入れておく。 $ pip install elasticsearch ElasticsarchはDockerで立…

PySparkで1レコードを複数行にする

概要 PySparkでexplodeやflatMap、mapPartitionsを用いて1レコードを複数レコードに加工する。またgroupByで元の1レコードに戻す。 バージョン情報 spark-2.3.1 Python 3.5.5 サンプルデータ id, title, tagsの3つのカラムを持つcsvファイルがあるとする。ta…

pandasのapplyの進捗をtqdmで表示

概要 pandasで大きめのDataFrameに対してapplyすると、いつまで待てば結果が返るのか不安になることがあるのでtqdmで進捗を表示したい。 バージョン情報 Python 3.6.8 tqdm==4.31.1 pandas==0.23.4 サンプルデータ ランダムな数値で1万行のDataFrameを作成し…

Azure CLIで利用可能なリージョンの一覧を取得する

概要 リージョン一覧自体は下記ページなどに載っているけど、利用可能でないリージョンも載っていたりAzure CLIで指定するNameが載っていなかったりする。 Azure Locations | Microsoft Azure CLIを利用して利用可能なリージョンとそのNameについても取得す…

AirflowでMySQL/PostgreSQLのconnectionの取得

概要 AirflowのConnectionsで設定したDBへの接続情報を利用して、Pythonのスクリプト上でDBへ接続する。 サービスで利用するDBの接続情報(ユーザー名/パスワード等)をAirflowで管理してしまおうという考え。 バージョン情報 Python 3.6.7 apache-airflow==…

condaのPythonのバージョン管理

概要 condaで使っているPythonのバージョンを上げたり下げたりする。 バージョン情報 conda 4.6.7 Pythonのバージョンを更新する envに作るのではなく $CONDA_HOME/bin/python 自身のバージョンを上げる場合。 実行前のPythonのバージョン $ python --versi…