iMind Developers Blog

iMind開発者ブログ

形態素解析

PySparkでWikipediaのXMLをパースしてword2vec

概要 PySparkを利用して日本語版Wikipediaの全文を取り込んでわかち書きし、word2vecに放り込んでみる。 XMLのパース、わかち書き、word2vec等の全行程をPySpark上で行う。 バージョン情報 spark-2.3.1 Python 3.5.5 Janome==0.3.6 Janomeの動く環境を用意 S…

PythonのJanomeを用いた形態素解析

概要 Janomeは導入が手軽なピュアPython形態素解析ライブラリ。わざわざmecabやjuman++を導入する手順踏むほどでもないような軽い解析処理を行うシーンで使うと便利。 個人的にはPySpark上でわかち書きをする時に利用しています。 バージョン情報 Python 3.6…

PythonでJuman++を動かす

概要 形態素解析のJunam++について、インストールからPythonでの形態素解析の実行までを行う。 バージョン情報 jumanpp-1.0.2 pyknp==0.4.1 OSはUbuntu系を想定。それ以外のOSを利用している方はaptのところを適宜読み替えてください。 Juman++について Juma…