助けとアドバイスが必要です。mahout クラスターを使用して 5 Hadoop をセットアップする
私は2セットのデータを持っています:
表 1: id1、アドレス 1
表 2: id2、アドレス 2
次の結果が得られるように、両方のファイルのアドレスを比較して、 mahout で類似性スコアを見つけるにはどうすればよいですか?
結果: アドレス 1、アドレス 2、スコア
やった:
ファイルを 1 つの csv にマージ
シーケンスファイルに変換: seqdirectory,
- ベクトル化: seq2sparse (-wt tfidf )
この後、どこに行くべきか完全にはわかりません。推奨またはクラスタリング。jaccard インデックスなどの使用方法には、ポインターと例が必要です。