PerlでDamerau–Levenshtein distance

PerlでDamerau–Levenshtein distanceぱわふる「Damerau–Levenshtein distance」については http://f-n.daa.jp/2011/11/29/damerau/ が詳しくて分かりやすいです。

英語版のWikipediaによると、

  • Frederick J. Damerau と Vladimir I. Levenshtein の名をとって名付けられた
  • 「挿入」「削除」「置換」「(隣接した文字の)並べ替え(転置?)」の操作がある
  • Levenshtein distance は「(隣接した文字の)並べ替え」の操作がない
  • 「並べ替え」が「非隣接」か「隣接」かは明白じゃないことがある
  • スペルチェッカーの改良がオリジナルの動機づけなのに対し、これはDNA間の異なりを測るのにも使える

ということらしい。

自分は「編集距離」は機械学習の素性として使われているのを見ることが多いですね。
で、この距離がCPANモジュールの「Text::Levenshtein::Damerau」で簡単に出てくるので使い方のメモです。
「Text::Fuzzy」が「Damerau」じゃない(「挿入」「削除」「置換」のみの)やつ。


コメントを残す

メールアドレスが公開されることはありません。