R-tm-Rweka パッケージを使用してテキスト マイニングを行っています。私の目的には不十分な単一の単語で tf-tdm を構築する代わりに、ngram を抽出する必要があります。@Ben関数を使用してトリグラムTrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3))
tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
を抽出しました。出力に明らかなエラーがあります。以下を参照してください。4 語、3 語、2 語のフレーズをピックアップします。理想的には、4 語の名詞句のみをピックアップし、残り (3 語および 2 語) を削除する必要があります。Python NLTK にはバックアップ トークナイザー オプションがあるように、このソリューションを強制するにはどうすればよいですか?
抽象戦略 ->this is incorrect
>
抽象戦略ボード ->incorrect
抽象戦略ボードゲーム -> this should be the correct output
アクセント エグゼクティブ
アクセント エグゼクティブ シンプル
アクセント エグゼクティブ シンプル コメント
どうもありがとう。