“tm”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

1501 参照

r - コントロールリストに辞書を含むRテキストマイニングパッケージDocumentTermMatrixは、メモリを大量に消費します

DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))私はそれがはるかに多くのメモリを消費することに気づきましたDocumentTermMatrix(myCorpus)

なぜこうなった？

リードはありますか？

コードスニペットは次のとおりです。

今ここに私の質問があります：

メモリリークとバグの可能性があると思います。

r memory-management text-mining tm term-document-matrix

2011-07-10T22:49:15.707

0 投票する

2 に答える

5438 参照

r - Snowball Stemmer は最後の単語のみをステミングします

R の tm パッケージを使用して、プレーンテキストドキュメントのコーパス内のドキュメントをステミングしたいと考えています。コーパスのすべてのドキュメントに SnowballStemmer 関数を適用すると、各ドキュメントの最後の単語のみがステミングされます。

文書がコーパスに読み込まれる方法に関係していると思います。これをいくつかの簡単な例で説明します。

r stemming tm

2011-08-31T21:12:29.350

0 投票する

5 に答える

5856 参照

r - tm パッケージエラー「ベクトルが大きすぎるため、DocumentTermMatrix を通常の行列に変換できません」

1859 個のドキュメント (行) と 25722 個 (列) を含む DocumentTermMatrix を作成しました。この行列でさらに計算を実行するには、通常の行列に変換する必要があります。as.matrix()コマンドを使いたい。ただし、次のエラーが返されます: サイズ 364.8 MB のベクトルを割り当てることができません。

何らかの理由で、オブジェクトが通常の行列に変換されるたびに、オブジェクトのサイズが劇的に増加するように見えます。どうすればこれを回避できますか?

または、DocumentTermMatrix で通常のマトリックス操作を実行する別の方法はありますか?

r tm

2011-09-11T17:49:00.890

0 投票する

6 に答える

39084 参照

r - Rテキストファイルとテキストマイニング・・・データの読み込み方

R パッケージを使用しておりtm、テキストマイニングを行いたいと考えています。これは 1 つのドキュメントであり、単語の袋として扱われます。

テキストファイルをロードする方法と、次のような機能の使用を開始するために必要なオブジェクトを作成する方法に関するドキュメントがわかりません。

したがって、これが私のドキュメントであると仮定すると、「これは R 負荷のテストです」

テキスト処理用のデータをロードしてオブジェクト x を作成するにはどうすればよいですか?

r load text-mining tm

user959129

2011-10-28T09:20:19.557

0 投票する

1 に答える

3329 参照

r - tm DocumentTermMatrix に短いトークンを含める

編集: これは、ワークスペース内のオブジェクトが競合し、予期しない動作を引き起こす問題でした。

次のコードを使用して、ドキュメントから DocumentTermMatrix を作成しようとしています。ドキュメントには、1 文字と 2 文字のトークンが多数含まれています。ただし、最小単語長が 1 文字に設定されている場合でも、結果のマトリックスには 699 のドキュメントと 0 の用語が含まれます。

データに 1 文字と 2 文字のトークンが多数あるにもかかわらず、トークンが作成されない理由を誰かが明らかにすることはできますか? 以下は、サンプルデータエントリの 1 つです。

r tm

2012-02-09T06:26:16.693

0 投票する

3 に答える

1683 参照

regex - コーパスから html タグ以外のすべてを削除する

パッケージを使用していますtm。HTML ドキュメントでいっぱいのコーパスがあり、html タグ以外をすべて削除したいと考えています。私は数日間それをやろうとしてきましたが、良い解決策を見つけることができないようです.

たとえば、次のようなドキュメントがあるとします。

ドキュメントを次のようにしたいと思います。

(または、終了タグについては、あまり気にしません。)

私の目標は、ドキュメント内で各タグが使用された回数を数えることです。

regex r text-mining tm

2012-03-26T15:51:36.150

0 投票する

2 に答える

14494 参照

r - Rのdata（）関数について

「tm」などのダウンロードされたRパッケージを使用する場合、指定された例では通常、次のようなサンプルデータセットが読み込まれます。

このデータセットが正確に何であるか、そしてどの種類の形式、行列またはベクトルであるかをどのように知ることができますか？この種の情報を知っている場合にのみ、このパッケージに必要な形式に入力をカスタマイズできます。

r tm

2012-04-03T02:22:14.487

0 投票する

0 に答える

4004 参照

r - tm パッケージエラー: ドキュメント用語マトリックスの定義エラー

「tm」パッケージを使用して、ロイター 21578 コーパス (1987 年以降のすべてのロイターニュース記事) を分析しています。XML ファイルを R データファイルにインポートした後、テキストをクリーンアップします。プレーンテキストに変換し、小文字に変換し、ストップワードを削除します (以下を参照)。次に、コーパスをドキュメントタームマトリックスに変換します。しかし、次のエラーメッセージが表示されます。

UseMethod("Content", x) のエラー: クラス "character" のオブジェクトに適用される 'Content' に適用可能なメソッドがありません

すべての前処理ステップは、文書用語マトリックスまで正しく機能します。

コーパスの非ランダムサブセット (4000 ドキュメント) を作成しましたが、ドキュメントタームマトリックスコマンドはそれで正常に動作します。

私のコードは以下です。助けてくれてありがとう。

r text-analysis tm reuters

2012-04-30T00:33:55.600

0 投票する

1 に答える

5389 参照

r - R tmパッケージは、最も頻繁な用語のマトリックスを作成します

Rのパッケージを使用してtermDocumentMatrix作成しました。tm

最も頻繁に発生する50の用語を持つマトリックス/データフレームを作成しようとしています。

行列に変換しようとすると、次のエラーが発生します。

そこで、Matrixパッケージを使用してスパース行列に変換してみました。

以下を使用して、tdmのさまざまな部分にアクセスしてみました。

その他の情報は次のとおりです。

私の理想的な出力は次のようなものです。

助言がありますか？

r text-mining tm term-document-matrix

2012-07-16T16:42:46.627

問題タブ [tm]

Reference