mahout - Mahout でアドレス間の類似性を見つけるにはどうすればよいですか?

Question

助けとアドバイスが必要です。mahout クラスターを使用して 5 Hadoop をセットアップする

私は2セットのデータを持っています:

表 1: id1、アドレス 1
表 2: id2、アドレス 2
次の結果が得られるように、両方のファイルのアドレスを比較して、 mahout で類似性スコアを見つけるにはどうすればよいですか?

結果: アドレス 1、アドレス 2、スコア

やった：

ファイルを 1 つの csv にマージ
シーケンスファイルに変換: seqdirectory,
ベクトル化: seq2sparse (-wt tfidf )

この後、どこに行くべきか完全にはわかりません。推奨またはクラスタリング。jaccard インデックスなどの使用方法には、ポインターと例が必要です。

score 1 · Accepted Answer

一般的なテキスト類似性アルゴリズムをアドレスに適用することはできますが、一般的なアルゴリズムではスペルミスが考慮されないため、結果が悪くなることは間違いありません。「MainSt」は「MainDr」と「MainStreet」に似ています。「Apt203」と「＃203」は関係ありません。

つまり、ここでは、ベクトル化された表現が優れたあいまいマッチングアルゴリズムの基礎になるとは思いません。そのため、Mahoutは直接は役に立ちませんが、非ベクトルデータの独自のクラスタリングを構築するためのインフラストラクチャを提供する可能性があります。

ツールを選択する前に、バックアップしてアルゴリズムを定義します。

score 0 · Accepted Answer

住所の類似性のために Mahout を使用するのは多すぎる場合があります。SimHash のようなもっと単純なアルゴリズムの使用を検討しましたか? 以下は、それに関する素晴らしいチュートリアルです。SimHash やシングルスなどを見つけるための Java ライブラリは、Google コードで利用できます。

http://matpalm.com/resemblance/simhash/

あなたはここにlibを見つけるでしょう

http://code.google.com/p/simhash/

mahout - Mahout でアドレス間の類似性を見つけるにはどうすればよいですか?

2 に答える 2

Related

Reference