形態素解析
概要 Ginzaを使ってNLPでよく使ういくつかの処理を動かしてみる。 バージョン情報 ginza==2.2.0 Python 3.7.4 インストール pipで入れられる。 $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" 詳細は…
概要 PySparkを利用して日本語版Wikipediaの全文を取り込んでわかち書きし、word2vecに放り込んでみる。 XMLのパース、わかち書き、word2vec等の全行程をPySpark上で行う。 バージョン情報 spark-2.3.1 Python 3.5.5 Janome==0.3.6 Janomeの動く環境を用意 S…
概要 Janomeは導入が手軽なピュアPython形態素解析ライブラリ。わざわざmecabやjuman++を導入する手順踏むほどでもないような軽い解析処理を行うシーンで使うと便利。 個人的にはPySpark上でわかち書きをする時に利用しています。 バージョン情報 Python 3.6…
概要 形態素解析のJunam++について、インストールからPythonでの形態素解析の実行までを行う。 バージョン情報 jumanpp-1.0.2 pyknp==0.4.1 OSはUbuntu系を想定。それ以外のOSを利用している方はaptのところを適宜読み替えてください。 Juman++について Juma…