iMind Developers Blog

iMind開発者ブログ

Open Image Dataset V5を使ってみる

概要 Open Image Dataset V5をダウンロードして中身を確認する。 BoxやSegmentationの情報をplotしてみる。 Open Image Dataset V5とは Googleが公開しているアノテーション付きの画像データ 600カテゴリ、1585万のボックス 350カテゴリ、278万のセグメンテ…

PySparkでUDFをregisterしてSQLから呼び出す

概要 PySparkで作成したUDFをPythonやSparkの経験がない人にも使ってもらいたい時は、registerしてSQLで呼び出せるようにするとハードルが下がる。 本稿はpysparkでUDFを書く、spark.udf.registerでUDFを登録する、クエリから呼び出す、といった一連の流れを…

MLFlowを使ってみる3 - models

概要 MLFlowの機能をざっと試す第三弾。tracking、projectsと扱ってきたので今回は最後のmodelsについて。 modelsは生成したモデルをsave、load、predictなどの機能を持ち、コマンドラインで指定モデルを使ってpredictが実行できたりもする。 本稿では扱わな…

MLFlowを使ってみる2 - projects

概要 MLFlowの機能をざっと試す第二弾。前回はtrackingを扱ったので今回はprojects。 projectsはdockerやcondaでプロジェクトの管理ができる。本稿ではdockerは扱わずcondaを利用する。 バージョン情報 mlflow==1.0.0 experimentの生成 今回の例で利用するex…

MLFlowを使ってみる1 - tracking

概要 機械学習周りの処理のトラッキングとかモデルの管理をしたかったので比較的手軽に扱えそうなMLFlowを試してみる。 本稿では基本機能の1つであるtrackingを用いて、scikit-learnでパラメータを変えつつ学習を行い、モデルや結果を保存する。 バージョン…

pyarrowによるPythonでのHDFS操作

概要 PythonでHDFSの操作をしたかったので、pyarrowに入っているclientを使ってみる。 類似のライブラリは他にもいろいろあるけど、pyarrowはその中でもメンテナンスが活発に行われている方なので安心感がある。 バージョン情報 Python 3.7.3 pyarrow==0.11.…

githubのプロジェクトをpip install

概要 pip installする際にgithubのmasterや任意のブランチからインストールしたい。 バージョン情報 pip 19.1.1 サンプルプロジェクト helloworldと出力するだけの自前ライブラリを用意してgithubにpushしておく。 ディレクトリ構成 ├── helloworld │ └── __…

Pythonのclickでコマンドライン引数を扱う

概要 Pythonでコマンドライン引数を扱う際に便利なclickについて、ありがちなケースでの使い方についてまとめる。 バージョン情報 Click==7.0 Python 3.7.3 コマンドライン引数の取得 簡易な例として、name(string)とage(int)の2つの引数を取るコードを書い…

PythonのclickのType一覧

概要 Pythonでコマンドライン引数を扱う際に便利なclickについて、利用可能なTypeについてまとめる。 バージョン情報 Click==7.0 Python 3.7.3 指定可能なタイプ 下記のTypeが利用できる。 string int float bool click.UUID click.File click.Path click.Ch…

gensimでword2vec

概要 Pythonでword2vecを実行する簡易な例として、gensimでWikipediaのリンク情報を用いて各記事の距離を出すコードを書く。 バージョン情報 Python 3.6.8 gensim==3.6.0 word2vec==0.9.4+2.g8204e5c 導入 必要なものはcondaで入れられる。gensimのword2vec…