Python勉強メモ#5「homura と madoka で形態素の頻度を数えよ」

Python勉強メモ#5「homura と madoka で形態素の頻度を数えよ」ぱわふるあらかじめ「pip」とかで「homura」と「madoka」を入れておきましょう。

まずはダウンローダーの「homura」で形態素解析済みの青空文庫のデータをダウンロード。

適当に解凍したら「madoka」(Pythonの辞書より省メモリかもしれないデータ構造を提供するライブラリ)で形態素をカウントです。
(Madokaの詳細: http://s-yata.github.io/madoka/index.ja.html

出力された頻度(推定値)は以下のようになりました。

実際の頻度は以下の通り。


コメントを残す

メールアドレスが公開されることはありません。