Windows - MeCab で形態素解析!
Updated:
文章を意味のある単語に区切り、辞書を利用して品詞や内容を判別することを「形態素解析」と言います。 形態素解析は、主にかな漢字変換や機械翻訳に使われている記述です。
今回はまず、近い将来目論んでいることのために、Windows のコマンドプロンプトで試してみました。
以下、導入・試行方法の記録です。
記録Permalink
0.前提条件Permalink
インストールするのは、WindowsXP SP3 です。
1.ダウンロードPermalink
MeCab: Yet Another Part-of-Speech and Morphological Analyzer のダウンロードリンクから “mecab-0.992.exe”(当記事執筆時点の最新)をダウンロードします。 Windows版の場合はこのインストーラにIPA辞書も含まれているようです。
2.インストールPermalink
ダウンロードした “mecab-0.992.exe” を実行します。 今回はコマンドプロンプトで使用することが目的なので、途中で聞かれる「辞書の文字コード選択」では「SHIFT-JIS」を選択します。
3.実行Permalink
デスクトップに作成された MeCab のショートカットアイコンをダブルクリックするだけです。
4.形態素解析の実行Permalink
開いたDOS画面に文章を入力&エンター押下で形態素解析が実行されます。 以下のような感じになります。
出力フォーマットは左から順に以下のようになっているようです。
表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,
活用形,活用型,原形,読み,発音
おもしろいですね。 近い将来、当方のサーバの MySQL に保存している全ツイート内容や全ブログ記事を Ruby を使って解析・集計してみたいとも思っています。
以上。
Comments