2

私は R tm パッケージを使用していtm_mapますが、テキストの要素を削除する関数はほとんど機能していません。

「動作する」とは、たとえば次のように実行することを意味します。

d <- tm_map(d, removeWords, stopwords('english'))

しかし、私が走るとき

ddtm <- DocumentTermMatrix(d, control = list(
    weighting = weightTfIdf,
    minWordLength = 2))
findFreqTerms(ddtm, 10)

私はまだ得る:

[1] the     this

...など、その他のストップワードがたくさんあります。

何か問題が発生したことを示すエラーは表示されません。これが何であるか、ストップワード削除機能を正しく機能させる方法、または何が問題なのかを診断する方法を知っている人はいますか?

アップデート

以前にキャッチできなかったエラーがあります。

Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

tmでストップワードを削除しているのはWekaですよね?これは私の問題でしょうか?

更新 2

このことから、このエラーは無関係のように見えます。ストップワードではなく、データベースに関するものです。

4

1 に答える 1

6

気にしないでください、それは働いています。次の最小限の例を実行しました。

data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]

tm_map一連の表現をいくつか使用しました。スペースや句読点などを削除した順序で、新しいストップワードが連結されていたことが判明しました。

于 2013-02-07T18:57:46.490 に答える