python - テキストベースの情報の分類 (つまり、文字列カーネルの実装)

Question

一連の消費者データに対してクラスタリングアルゴリズムを実行する必要がありますが、テキストベースのフィールドを処理する方法がわかりません (SE1 8XR などの英数字の郵便番号が最適な例です)。

どうやら私が使用する必要があるのは文字列カーネルです。基本的な考え方は理解していますが、うまく実装するには十分ではありません。

理想的には、新しい数値ベクトルで、2 つの郵便番号が似ていないほどデータポイントが離れているという考えをエンコードしたいと考えていますが、これを行う方法がわからず、有用な 1 つを見つけることができませんでしたチュートリアル、ガイド、または教科書！

また、誰かが知っている便利なライブラリがある場合に備えて、Pythonでこれを行っています。

score 2 · Accepted Answer

再郵便番号

郵便番号を文字列として比較することはできません。「AL1 1AA」はセントオールバンズ、「AB1 1AA」はアバディーンです。編集距離は非常に近いですが、CR6 7DX はセントオールバンズに近いです :)

あなたの最善のアプローチは、おそらく郵便番号を取るhttp://www.ordnancesurvey.co.uk/oswebsite/products/os-opendata.htmlから、またはたとえば、少なくともセクター 'AL1 1' (場合によっては地区 'AL1') を取得し、それを緯度/経度にマップし、それを使用してデータをバケット化します。

その他の弦

考えられるオプションの 1 つdifflib.SequenceMatcherは、2 つの文字列が互いにどの程度類似しているかのパーセンテージスコアを返すものを使用することです (他にもたくさんのアルゴリズムがあります: Google の「遺伝的文字列アルゴリズム」、「ファジー文字列マッチング」、「文字列類似性アルゴリズム」など)。 ...)。互いに (おそらく) 80% 類似しているすべての文字列をグループ化し、それらをグループに割り当てます。次に、そのグループにクラスター化します。

ntlk要件とデータの複雑さによっては、metaphone と double metaphone (および場合によっては ) が役立つ場合もあります。

python - テキストベースの情報の分類 (つまり、文字列カーネルの実装)

1 に答える 1

Related

Reference