perl - Perl における N-Gram、tf-idf、および Cosine の類似性

Question

各行の複数の単語でパターン「マイニング」を実行しようとしています。Perl の Text::Ngrams モジュールを使用して N-gram 分析を行いました。これにより、各単語の頻度がわかります。しかし、私はこのテキストでパターンを見つけることについてかなり混乱しています.

tf-idf も頻度を見つけますが、これは私が行った Ngram 分析とどのように異なり、類似度の測定もどのように役立ちますか。

この概念の一部を理解できるようになる perl モジュールまたはコードのスニペットはありますか?

私は物理学のバックグラウンドを持っていますが、いくつかのパターン認識を行う必要があるため、これらのいくつかに少し慣れていないため、このトピックに関する良いリファレンスをいただければ幸いです。

score 0 · Accepted Answer

N 個のドキュメントがあり、次のことを行うとします。

文書 X (ボディービルダーになる方法に関する記事を含む) が、内容がわからない別の文書 Y と類似しているかどうかを調べたい. 文書 Y が文書 X と「類似」している場合、ボディービルに関連する通常の用語が含まれている可能性があります。たとえば、重量挙げ、バーベル、ダンベル、そしておそらくアーノルドです。

したがって、ドキュメント X、ドキュメント Y の類似性はかなり高いでしょう。この類似性を測定する 1 つの方法は、これら 2 つのドキュメント間の余弦角を使用することです。

コサイン類似度リファレンス: http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html

CPAN を使用して Perl モジュールを検索します。たとえば、コサイン類似度を計算するには、Text::Documentモジュールを試すことができます

perl - Perl における N-Gram、tf-idf、および Cosine の類似性

1 に答える 1

Related

Reference