複数の章のドキュメントを2番目のドキュメントと比較して、それらの類似性を判断する必要があるプロジェクトがあります。問題は、これをどのように行うか、どのようなアプローチが存在するか、またはそれらが利用可能なライブラリであるかどうかがわからないことです。
私の最初の質問は...何が似ているのですか?一致する単語の数、一致する連続する単語の数?
各ドキュメントを単語と場所を含む配列に配置するパーサーを作成し、それらを比較するのを見ることができました。
テキスト分析のためのアルゴリズムまたはライブラリで以前の質問を見ました 。具体的には、支配的な単語、テキスト全体のフレーズ、およびテキストのコレクションです。
しかし、それは私がやろうとしていることとは少し違うようです。
人々が持っているかもしれないどんなオプションやポインタも素晴らしいでしょう!