ngram を見つけるために使用されるアルゴリズムは何ですか?
入力データが単語の配列であり、検索したい ngram のサイズであると仮定すると、どのアルゴリズムを使用する必要がありますか?
Rを優先してコードを求めています。データはデータベースに保存されるため、plgpsql関数でもかまいません。Java は私がよく知っている言語なので、別の言語に「翻訳」できます。
私は怠け者ではありません。コードを求めているだけです。なぜなら、既に行われているアルゴリズムを実行しようとして車輪を再発明したくないからです。
編集:各 n-gram が何回出現するかを知ることが重要です。
編集 2: N-GRAMS 用の R パッケージはありますか?