r - RWeka でバックアップトークナイザスイッチを実装するには?

翻译自：https://stackoverflow.com/questions/37750951 2016-06-10T14:37:22.500

178 次

R-tm-Rweka パッケージを使用してテキストマイニングを行っています。私の目的には不十分な単一の単語で tf-tdm を構築する代わりに、ngram を抽出する必要があります。@Ben関数を使用してトリグラムTrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3)) tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
を抽出しました。出力に明らかなエラーがあります。以下を参照してください。4 語、3 語、2 語のフレーズをピックアップします。理想的には、4 語の名詞句のみをピックアップし、残り (3 語および 2 語) を削除する必要があります。Python NLTK にはバックアップトークナイザーオプションがあるように、このソリューションを強制するにはどうすればよいですか?

抽象戦略 ->this is incorrect>
抽象戦略ボード ->incorrect
抽象戦略ボードゲーム -> this should be the correct output

アクセントエグゼクティブ
アクセントエグゼクティブシンプル
アクセントエグゼクティブシンプルコメント

どうもありがとう。

r - RWeka でバックアップ トークナイザ スイッチを実装するには?

1 に答える 1

Related

Reference

r - RWeka でバックアップトークナイザスイッチを実装するには?