2019-04-01から1ヶ月間の記事一覧
概要 画像処理のコードを書いてブログに例を載せたい時に、拾い物の写真だと権利周りが気になる。 そんな時に使えることがあるskimageやsklearnのサンプル画像を貼っていく。 バージョン情報 scikit-image==0.15.0 scikit-learn==0.20.3 データの配置場所 sc…
概要 HBaseに対してがっつりinsertやselectする際はhiveと連携させると楽だった。 バージョン情報 Hive 1.1.0 HBase 1.2.0 参考情報 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration keyとvalueだけを持つテーブルの生成 今回のサンプル…
概要 Airflowのテンプレートに日付を埋め込む時に毎回ググってる気がしてきたので、自分用のまとめを書いた。 バージョン情報 apache-airflow==1.10.3 参考URL https://airflow.apache.org/macros.html 確認用スクリプト contextの中にいるtsとかdsとかds_no…
概要 ConnectionやVariableの値はWeb UIから入れられるけど、実運用ではコマンドラインから構築できるようになっていた方が便利。 試しにConnectionとVariableにそれぞれ値を投入してみる。 バージョン情報 Python 3.6.7 apache-airflow==1.10.3 Connections…
概要 HBaseを使う際のコマンドをhbase shellでちょっと確認。 バージョン情報 HBase 1.2.0 hbase shellの起動 $ hbase shell helpの参照 > help 機能ごとのhelpの参照。下記はcreateの例。 > help 'create' テーブル生成 exampleテーブルの生成。 > create '…
概要 pandasにはcsvやpickle、parquetなど様々な形式でのデータ出力が用意されている。 各出力形式で実際にデータを出力して結果や実行時間を確認してみる。 実行時間はipython上で%%timeを用いて計測。小数点以下はround。記事の最後に実行時間と出力サイズ…