私は R tm パッケージを使用していtm_map
ますが、テキストの要素を削除する関数はほとんど機能していません。
「動作する」とは、たとえば次のように実行することを意味します。
d <- tm_map(d, removeWords, stopwords('english'))
しかし、私が走るとき
ddtm <- DocumentTermMatrix(d, control = list(
weighting = weightTfIdf,
minWordLength = 2))
findFreqTerms(ddtm, 10)
私はまだ得る:
[1] the this
...など、その他のストップワードがたくさんあります。
何か問題が発生したことを示すエラーは表示されません。これが何であるか、ストップワード削除機能を正しく機能させる方法、または何が問題なのかを診断する方法を知っている人はいますか?
アップデート
以前にキャッチできなかったエラーがあります。
Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...
tmでストップワードを削除しているのはWekaですよね?これは私の問題でしょうか?
更新 2
このことから、このエラーは無関係のように見えます。ストップワードではなく、データベースに関するものです。