2019-06-01から1ヶ月間の記事一覧
概要 t-SNEとPCAでMNISTの手書き文字やファッション画像を2〜3次元に圧縮して可視化してみる。 バージョン情報 scikit-learn==0.21.2 Keras==2.2.4 (fashion_mnistのデータセットで利用) 手書き文字 - t-SNE - 2次元 sklearn.datasetsのdigitsを使って2次元…
概要 PySparkで整形したrddをtoDFしようとしたら下記のようなエラーが起きて怒られた。 ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling データを確認すると、処理結果の上位がNoneになっていて型の…
概要 PCAを使う用事があったのでscikit-learnを利用する。 バージョン情報 scikit-learn==0.21.2 Python 3.7.3 サンプルデータ ランダムにユーザーにアイテムを割り振るサンプルデータを生成してみる。 要件は下記。 ユーザー数は1万 アイテム数は3000 1ユー…
概要 chart.jsのグラフの上に任意の部分に画像を表示したかった。 バージョン情報 chart.js 2.8.0 動作確認ブラウザ Firefox 67.0 Chromium 75.0 作成する画面 みんな大嫌いなPie Chartで中央に黒い太陽の絵を置いてみる。下記のようなイメージ。 ただのPie …
概要 Open Image Dataset V5をダウンロードして中身を確認する。 BoxやSegmentationの情報をplotしてみる。 Open Image Dataset V5とは Googleが公開しているアノテーション付きの画像データ 600カテゴリ、1585万のボックス 350カテゴリ、278万のセグメンテ…
概要 PySparkで作成したUDFをPythonやSparkの経験がない人にも使ってもらいたい時は、registerしてSQLで呼び出せるようにするとハードルが下がる。 本稿はpysparkでUDFを書く、spark.udf.registerでUDFを登録する、クエリから呼び出す、といった一連の流れを…
概要 MLFlowの機能をざっと試す第三弾。tracking、projectsと扱ってきたので今回は最後のmodelsについて。 modelsは生成したモデルをsave、load、predictなどの機能を持ち、コマンドラインで指定モデルを使ってpredictが実行できたりもする。 本稿では扱わな…
概要 MLFlowの機能をざっと試す第二弾。前回はtrackingを扱ったので今回はprojects。 projectsはdockerやcondaでプロジェクトの管理ができる。本稿ではdockerは扱わずcondaを利用する。 バージョン情報 mlflow==1.0.0 experimentの生成 今回の例で利用するex…
概要 機械学習周りの処理のトラッキングとかモデルの管理をしたかったので比較的手軽に扱えそうなMLFlowを試してみる。 本稿では基本機能の1つであるtrackingを用いて、scikit-learnでパラメータを変えつつ学習を行い、モデルや結果を保存する。 バージョン…
概要 PythonでHDFSの操作をしたかったので、pyarrowに入っているclientを使ってみる。 類似のライブラリは他にもいろいろあるけど、pyarrowはその中でもメンテナンスが活発に行われている方なので安心感がある。 バージョン情報 Python 3.7.3 pyarrow==0.11.…
概要 pip installする際にgithubのmasterや任意のブランチからインストールしたい。 バージョン情報 pip 19.1.1 サンプルプロジェクト helloworldと出力するだけの自前ライブラリを用意してgithubにpushしておく。 ディレクトリ構成 ├── helloworld │ └── __…