小説を聴こう

ここ最近は小説(おもに青空文庫にある作品)を読み耽っていました。ドラマよりアニメのほうが好きですが、ラノベより普通の小説のほうが好きです。挿絵でイメージが固定されるのは好かないのです。挿絵がピッタリと本文にあっているならまだしも、脳内で構築したイメージをぶち壊すようなものなら超絶興ざめです。

それはさておき、アマゾンで『女生徒』と『雪の夜の話』の朗読CDを発見して買いました。

女生徒/ろまん燈籠 朗読CD付 (海王社文庫) 斜陽/雪の夜の話 朗読CD付 (海王社文庫)

『人間失格』の朗読CDもありますが、『人間失格』は1回読んだらお腹いっぱいになる作品で、朗読CDで繰り返し聴きたくなる類いの物語ではないように自分は感じます。

『女生徒』と『雪の夜の話』はどっちも何回読んでも聴いても飽きない作品です。どちらかというと『雪の夜の話』のほうが心が温まる話で好きなのですが、朗読CDは『女生徒』のほうが完成度が高く感じます。(「女生徒に花澤香菜」≒「鬼に金棒」ですね。)

「日本語はこんなにも美しかったのか」と再認識し、恍惚としてしまいました。

他には kikel.jp という小説を「耳で読む」サービスがあります。1年ぐらい前に利用したことがあるのですが、こちらは作品数が少ないのが玉に瑕です。

ところで、小説を耳で聴くのにBGMは不要だと思うのは自分だけなのでしょうか? まともな小説は地の文からイメージを脳内で構築できるように創られていますし、地の文のみで想像するほうが楽しいのです。(とか書いたら、こういう商品・サービス作っている人に届かないかな?)

青空文庫のIDF(逆文書頻度)リストを出す

珍しい語には高い重みを、ありふれた語には低い重みを与えるもので、idf_t = log(N / df_t) (N:全文書数、df_t:用語tを含む文書数)で定義されます。
小説執筆サイトの著者の特徴語を出すのにIDFを利用したいために計算しました。
データは「青空文庫 形態素解析データ集」の「newnew.csv.gz」を利用しました。

まずは以下のコードで全文書数と形態素ごとの df_t を求めました。

上記のコードで出た N(全文書数 = 6704)と df_t(用語tを含む文書数)を使って idf_t を求めるコードは以下の通りです。
(以下のコードを使う場合は「全文書数」と「形態素を含む文書数ランキング」の行と空行は消しておいてください。)

(自分にとって)不要な形態素をふるいにかけるのが以下のコードです。

順番に使い捨てPerlスクリプトを実行していくと以下のIDFリストが得られます。

文書数(作品)の数がもう少し欲しいところですが、これでもかなり使えるかと思います。

アクセスアップに検索エンジン最適化は欠かせない

3180億パターンの名前を生成できる「すごい名前生成器」がようやく1件目で安定してきて、アクセスがグンとアップしました。

1件目

競合サイトの倍以上いいものを創って、検索ワードとターゲットを絞って、「利用者の行動を分析 → 改良」のループでようやくアクセスが増えてくる感じ。競合サイトを卓越するものを創れる自信がないのなら、手を出さないほうがいい。

紙に書いている日記によると「すごい名前生成器」の公開日は4月27日なので、1件目で安定するまで半年近くかかった計算です。

「すごい名前生成器」は「うぇぶどら!」の補助アプリケーションという位置づけなのですが、アクセス数は「すごい名前生成器」が圧倒してしまっています。(汗)

ちなみに「うぇぶどら!」の現在の表示順位を分析すると、以下の通りでした。

  • ウェブドラマ・・・圏外
  • 小説 縦書き 合作・・・1位
  • 小説 縦書き・・・25位
  • 小説 合作・・・19位
  • 小説・・・圏外

「小説 合作」で5件目以内を目標にして、当分の間「利用者の行動を分析 → 改良」のループです。これ以上改良のしようがなくなったらYahoo!カテゴリに登録申請の予定です。(昔ほどの効果はないかもしれませんが。)

「うぇぶどら!」の公開当初はターゲットが分散していたように感じたので、今はシンプルに「小説を縦書きで合作」をキーワードにしています。(ワンクリックでKindleに配信できるのも売りなのですが)

「小説は独りで書くもの」という常識を覆して受け入れてもらうのは至難の業だと感じている、今日このごろです。