各行の複数の単語でパターン「マイニング」を実行しようとしています。Perl の Text::Ngrams モジュールを使用して N-gram 分析を行いました。これにより、各単語の頻度がわかります。しかし、私はこのテキストでパターンを見つけることについてかなり混乱しています.
tf-idf も頻度を見つけますが、これは私が行った Ngram 分析とどのように異なり、類似度の測定もどのように役立ちますか。
この概念の一部を理解できるようになる perl モジュールまたはコードのスニペットはありますか?
私は物理学のバックグラウンドを持っていますが、いくつかのパターン認識を行う必要があるため、これらのいくつかに少し慣れていないため、このトピックに関する良いリファレンスをいただければ幸いです。