同様の質問を見たことがありますが、私が扱っていることに対する答えは見つかりませんでした。初めてなので、簡単な解決策があればご容赦ください。
私は R パッケージ「tm」を使用しており、http ://www.cs.cmu.edu/afs/cs/project/theo にある WebKB データから用語ごとのマトリックスを作成しようとしています。 -20/www/データ/
データはいくつかの異なるフォルダーにあり、それぞれがトピックを追跡していますが、ドキュメントを 1 つのファイルにまとめました。すべてのドキュメントの中で、複数のトピックにあるドキュメントは 1 つまたは 2 つだけです。
さて、これが私がやったことです:
b <- Corpus(DirSource("/Users/checkout/Downloads/webkb/z"), readerControl=list(language="eng", reader=readPlain))
b <- tm_map(b, removeNumbers)
b <- tm_map(b, removePunctuation)
b <- tm_map(b, stripWhitespace)
b <- tm_map(b, tolower,lazy=TRUE)
b <- tm_map(b, removeWords, stopwords("english"),lazy=TRUE)
これまでのところ、エラーはありません。しかし、次の行を実行すると
termByDoc <- termDocumentMatrix(b)
次のエラーが表示されます
UseMethod("meta", x) のエラー: クラス "try-error" のオブジェクトに適用される 'meta' に適用可能なメソッドがありません。さらに: 警告メッセージ: 1: mclapply(x$content[i], function(d ) tm_reduce(d, x$lazy$maps)) : スケジュールされたコア 1 ユーザー コードでエラーが発生しました。ジョブのすべての値が影響を受けます 2: mclapply(unname(content(x)), termFreq, control) : すべてスケジュールされていますコアでユーザー コードでエラーが発生しました
何が問題なのか誰か教えていただければ幸いです。また、この用語ごとのマトリックスを作成するためのより効率的な方法があれば、私は提案します! 最後に、これらの html ファイル内のリンクをすべて削除する必要があります。これを処理する R 関数はありますか? ドキュメントには見当たりませんでしたので、これを行う方法についての提案もあれば、よろしくお願いします。
御時間ありがとうございます!