iMind Developers Blog

iMind開発者ブログ

Pythonのclickでコマンドライン引数を扱う

概要 Pythonでコマンドライン引数を扱う際に便利なclickについて、ありがちなケースでの使い方についてまとめる。 バージョン情報 Click==7.0 Python 3.7.3 コマンドライン引数の取得 簡易な例として、name(string)とage(int)の2つの引数を取るコードを書い…

PythonのclickのType一覧

概要 Pythonでコマンドライン引数を扱う際に便利なclickについて、利用可能なTypeについてまとめる。 バージョン情報 Click==7.0 Python 3.7.3 指定可能なタイプ 下記のTypeが利用できる。 string int float bool click.UUID click.File click.Path click.Ch…

gensimでword2vec

概要 Pythonでword2vecを実行する簡易な例として、gensimでWikipediaのリンク情報を用いて各記事の距離を出すコードを書く。 バージョン情報 Python 3.6.8 gensim==3.6.0 word2vec==0.9.4+2.g8204e5c 導入 必要なものはcondaで入れられる。gensimのword2vec…

Open Image Dataset v4を使ってみる

概要 Open Image Dataset v4から600クラスのデータを落としてきて中身を確認したり軽く使ってみたり、Pascal VOCの形式に変換したりする。 v5が出たこの時期にいまさらな記事。 ダウンロード 下記からダウンロードする https://storage.googleapis.com/openi…

pythonのrequestsでリダイレクト先を取る

概要 リクエスト先のURLが302等でリダイレクトをされた場合に、リクエスト先のURLを取得したい。 バージョン情報 requests==2.21.0 ソースコード リダイレクトURLを取るだけであればヘッダだけあれば良いのでgetではなくheadでリクエストを行い、レスポンス…

matplotlibで色をたくさん使う

概要 matplotlibで色分けしてグラフを表示したい時に、色をたくさん取ってくる方法について調べる。 バージョン情報 matplotlib==3.0.3 8色まで matplotlib.colors.BASE_COLORSで8色が出せる。用意されている色はb, g, r, c, m, y, k, w import matplotlib f…

PythonでWebスクレイピング

概要 仕事柄Webスクレイピングのコードを書くことがよくあるので、普段使っているコードをまとめておく。 バージョン情報 beautifulsoup4==4.7.1 requests==2.21.0 chardet==3.0.4 reppy==0.4.12 導入 $ pip install beautifulsoup4 requests chardet reppy …

Airflowのremoved stateのTaskを削除する

概要 Airflowでdagの実行中にタスクをソースコードから削除すると、stateがremovedになったタスクがTask Instancesのトップに表示されたままになることがある。 フィルタでState not contains removedとすれば消えるけど、邪魔なので根本的に削除する方法を…

AirflowのCheckOperatorでDBの値チェック

概要 AirflowのCheckOperatorを使ってテーブルのカウント等のチェックを行う。 バージョン情報 Python 3.6.7 apache-airflow==1.10.3 CheckOperatorの種類 name description CheckOperator 0やemptyをチェックする ValueCheckOperator 値が指定値と同じか、…

Python+OpenCVで画像をリサイズして保存する

概要 OpenCVで画像を読み込んでサイズを一定のルールで変更して保存する処理を実行する。 用途としては機械学習用に集めた画像データを保存しておく用として、最大で縦横のどっちか長い方が512pixelになるようにしておくことを想定している。 バージョン情報…