相関を介してデータベースで類似の記事を見つけようとしています。
そこで、テキストを単語の配列に分割し、よく使用される単語 (冠詞、代名詞など) を削除してから、2 つのテキストをピアソン係数関数で比較します。一部のテキストでは機能しますが、他のテキストではあまり良くありません (大きなテキストのテキストは係数が高くなります)。
関連するテキストを見つけるための良い方法を教えてもらえますか?
相関を介してデータベースで類似の記事を見つけようとしています。
そこで、テキストを単語の配列に分割し、よく使用される単語 (冠詞、代名詞など) を削除してから、2 つのテキストをピアソン係数関数で比較します。一部のテキストでは機能しますが、他のテキストではあまり良くありません (大きなテキストのテキストは係数が高くなります)。
関連するテキストを見つけるための良い方法を教えてもらえますか?
あなたが言及した問題のいくつかは、ドキュメントの長さと全体的な単語の頻度を正規化することに要約されました。tf-idf を試してください。