nlp
概要 GCPのNatural Language APIを使って文章の感情分析(ポジネガ)を出したり、エンティティ分析(固有表現を抽出)をしてみる。 Google Cloud SDKからの実行とPythonからの実行の2パターン。 コンテンツの分類機能もあるみたいなので使ってみたけど日本語…
概要 固有表現抽出を行いたかったので、spacyでnerのtrainを行ってみる。 例として既存のginzaのモデルでは「10,000円」はMONEYとして抽出されるけど「\10,000」は認識されない問題を解決するモデルを作成。 バージョン情報 ginza==2.2.0 Python 3.7.4 参考…
概要 Ginzaを使ってNLPでよく使ういくつかの処理を動かしてみる。 バージョン情報 ginza==2.2.0 Python 3.7.4 インストール pipで入れられる。 $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" 詳細は…
概要 Pythonでword2vecを実行する簡易な例として、gensimでWikipediaのリンク情報を用いて各記事の距離を出すコードを書く。 バージョン情報 Python 3.6.8 gensim==3.6.0 word2vec==0.9.4+2.g8204e5c 導入 必要なものはcondaで入れられる。gensimのword2vec…
概要 名前から性別を判定するのって簡単にできるのかな、ということで簡易な判定器を書いて試してみる。 バージョン情報 Python 3.6.8 scikit-learn==0.19.1 xgboost==0.72.1 テストデータ 名前一覧とか名前ランキング的なページをスクレイピングして27,326…