azure - Azure Machine Learning でほぼ重複する行を検出する方法は?

Question

Azure の機械学習は初めてです。Azure の機械学習を使用して、質問の類似性アルゴリズムを実装しようとしています。多数の質問と回答があります。私たちの目的は、新しく追加された質問が重複しているかどうかを特定することです。新しい質問をすると、Stackoverflow が既存の質問を提案するように、Azure の機械学習サービスを使用してこれを解決できますか? 誰かが私たちを正しい方向に導くことができますか?

score 3 · Accepted Answer

はい、Azure Machine Learning Studio を使用でき、Jennifer が提案した方法を使用できます。

ただし、実験の現在のすべての質問を含むデータベースに対して R スクリプトを実行し、比較ごとに類似度メトリックを返す方がはるかに優れていると思います。

これを行う方法のいくつかの例 (単純/基本的なものからより高度なものまで) については、次の論文を参照してください。

開始する簡単な方法は、単純な「言葉の袋」比較を実装することです。これにより、クラスタリングに使用したり、同様の質問を返すために使用できる距離行列が得られます。次の R コードはそのようなものです。本質的には、最初の文として新しい質問を含む大きな文字列を作成し、その後にすべての既知の質問を続けます。この方法は、明らかに、質問の意味を実際には考慮せず、単語の使用が等しい場合にのみトリガーされます。

library(tm)
library(Matrix)
x <- TermDocumentMatrix( Corpus( VectorSource( strings.with.all.questions ) ) )
y <- sparseMatrix( i=x$i, j=x$j, x=x$v, dimnames = dimnames(x) )  
plot( hclust(dist(t(y))) )

azure - Azure Machine Learning でほぼ重複する行を検出する方法は?

2 に答える 2

Related

Reference