2019-10-01から1ヶ月間の記事一覧
概要 Pythonの標準ライブラリでdictionaryをjsonに変換して出力する。 また出力したjsonを読み込む。 バージョン情報 Python 3.7.4 サンプルデータ 本ページのサンプルコードでは下記のdictionaryを出力する。 obj = { 'foo': 'hoge', 'bar': [1, 2, 3, 4, 5…
概要 PDFを読み込んでテキストを取得する際に、一緒にそのテキストが文書内のどの座標(x座標, y座標)にいるかも取得したい。 バージョン情報 Python 3.7.4 pdfminer==20191016 サンプルデータ Libreofficeのcalcを用いて下記画像のようなPDFファイルを用意…
概要 rbenvのインストールから基本的な操作まで。 バージョン情報 rbenv 1.1.2-4-g577f046 rbenvのインストール $ git clone https://github.com/rbenv/rbenv.git ~/.rbenv $ git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/rub…
概要 固有表現抽出を行いたかったので、spacyでnerのtrainを行ってみる。 例として既存のginzaのモデルでは「10,000円」はMONEYとして抽出されるけど「\10,000」は認識されない問題を解決するモデルを作成。 バージョン情報 ginza==2.2.0 Python 3.7.4 参考…
概要 Ginzaを使ってNLPでよく使ういくつかの処理を動かしてみる。 バージョン情報 ginza==2.2.0 Python 3.7.4 インストール pipで入れられる。 $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" 詳細は…
概要 HTMLがある程度書けてPHP/JavaScriptも少しわかるという人がメンテするシステムがあったとする。生のPHPで書かれていてHTMLとロジックがかなり入り混じっている。 これを破綻させないように程よく改修する必要が出た場合、フレームワークを使うと担当者…
概要 Airflowの運用をGCP任せにできるCloud Composerを使ってPythonOperatorやBashOperatorを叩いてみる。 バージョン情報 Google Cloud SDK 264.0.0 composer-1.7.5-airflow-1.10.2 起動 GCPのWebUIからcomposerを選択し、environmentを作成する。 各項目に…
概要 log4jsを使ってログ出力、フォーマットの変更、ファイル出力、ログローテーション等を行う。 バージョン情報 node v10.15.1 log4js@5.1.0 インストール $ npm i log4js コンソールへのログ出力 ログレベルをinfoに設定してログを出力してみる。 const l…
概要 puppeteerを使って下記の項目などを実行する。 URLを叩いて結果をスクリーンショットとHTML本文の2パターンで保存する ページにテキストを入力してボタンを押す 当該ページに表示されている画像をまとめて保存する ページ遷移しながらスクレイピングし…