apache-spark - Spark を使用して文間の類似性を計算する

翻译自：https://stackoverflow.com/questions/50575103 2018-05-29T01:19:53.527

53 次

私の問題文には次の入力があります:-

 ID  -> List of Words
(101 -> Array("a1","b2","c4","d2"))
(102 -> Array("a6","b1","c5","d3"))
(103 -> Array("a1","b4","c4","d2"))
(104 -> Array("a2","b2","c3","d2"))
(105 -> Array("a7","b6","c1","d3"))

ここで、これらの入力ステートメント間の類似性を調べたいと思います。

例：-

(101 -> Array("a1","b2","c4","d2"))
(103 -> Array("a1","b4","c4","d2"))
(104 -> Array("a2","b2","c3",",d2"))

出力例では、ステートメントは互いによく似ています。

Sparkを使用してこれを達成するにはどうすればよいですか? 任意の論理コードまたは任意の機械学習アルゴリズムを使用できます。

ありがとう

apache-spark - Spark を使用して文間の類似性を計算する

0 に答える 0

Related

Reference