問題タブ [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - コントロールリストに辞書を含むRテキストマイニングパッケージDocumentTermMatrixは、メモリを大量に消費します
DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))
私はそれがはるかに多くのメモリを消費することに気づきましたDocumentTermMatrix(myCorpus)
なぜこうなった?
リードはありますか?
コードスニペットは次のとおりです。
今ここに私の質問があります:
メモリリークとバグの可能性があると思います。
r - Snowball Stemmer は最後の単語のみをステミングします
R の tm パッケージを使用して、プレーン テキスト ドキュメントのコーパス内のドキュメントをステミングしたいと考えています。コーパスのすべてのドキュメントに SnowballStemmer 関数を適用すると、各ドキュメントの最後の単語のみがステミングされます。
文書がコーパスに読み込まれる方法に関係していると思います。これをいくつかの簡単な例で説明します。
r - tm パッケージ エラー「ベクトルが大きすぎるため、DocumentTermMatrix を通常の行列に変換できません」
1859 個のドキュメント (行) と 25722 個 (列) を含む DocumentTermMatrix を作成しました。この行列でさらに計算を実行するには、通常の行列に変換する必要があります。as.matrix()
コマンドを使いたい。ただし、次のエラーが返されます: サイズ 364.8 MB のベクトルを割り当てることができません。
何らかの理由で、オブジェクトが通常の行列に変換されるたびに、オブジェクトのサイズが劇的に増加するように見えます。どうすればこれを回避できますか?
または、DocumentTermMatrix で通常のマトリックス操作を実行する別の方法はありますか?
r - Rテキストファイルとテキストマイニング・・・データの読み込み方
R パッケージを使用しておりtm
、テキスト マイニングを行いたいと考えています。これは 1 つのドキュメントであり、単語の袋として扱われます。
テキスト ファイルをロードする方法と、次のような機能の使用を開始するために必要なオブジェクトを作成する方法に関するドキュメントがわかりません。
したがって、これが私のドキュメントであると仮定すると、「これは R 負荷のテストです」
テキスト処理用のデータをロードしてオブジェクト x を作成するにはどうすればよいですか?
r - tm DocumentTermMatrix に短いトークンを含める
編集: これは、ワークスペース内のオブジェクトが競合し、予期しない動作を引き起こす問題でした。
次のコードを使用して、ドキュメントから DocumentTermMatrix を作成しようとしています。ドキュメントには、1 文字と 2 文字のトークンが多数含まれています。ただし、最小単語長が 1 文字に設定されている場合でも、結果のマトリックスには 699 のドキュメントと 0 の用語が含まれます。
データに 1 文字と 2 文字のトークンが多数あるにもかかわらず、トークンが作成されない理由を誰かが明らかにすることはできますか? 以下は、サンプル データ エントリの 1 つです。
regex - コーパスから html タグ以外のすべてを削除する
パッケージを使用していますtm
。HTML ドキュメントでいっぱいのコーパスがあり、html タグ以外をすべて削除したいと考えています。私は数日間それをやろうとしてきましたが、良い解決策を見つけることができないようです.
たとえば、次のようなドキュメントがあるとします。
ドキュメントを次のようにしたいと思います。
(または、終了タグについては、あまり気にしません。)
私の目標は、ドキュメント内で各タグが使用された回数を数えることです。
r - Rのdata()関数について
「tm」などのダウンロードされたRパッケージを使用する場合、指定された例では通常、次のようなサンプルデータセットが読み込まれます。
このデータセットが正確に何であるか、そしてどの種類の形式、行列またはベクトルであるかをどのように知ることができますか?この種の情報を知っている場合にのみ、このパッケージに必要な形式に入力をカスタマイズできます。
r - tm パッケージ エラー: ドキュメント用語マトリックスの定義エラー
「tm」パッケージを使用して、ロイター 21578 コーパス (1987 年以降のすべてのロイター ニュース記事) を分析しています。XML ファイルを R データ ファイルにインポートした後、テキストをクリーンアップします。プレーンテキストに変換し、小文字に変換し、ストップ ワードを削除します (以下を参照)。次に、コーパスをドキュメント ターム マトリックスに変換します。しかし、次のエラー メッセージが表示されます。
UseMethod("Content", x) のエラー: クラス "character" のオブジェクトに適用される 'Content' に適用可能なメソッドがありません
すべての前処理ステップは、文書用語マトリックスまで正しく機能します。
コーパスの非ランダム サブセット (4000 ドキュメント) を作成しましたが、ドキュメント ターム マトリックス コマンドはそれで正常に動作します。
私のコードは以下です。助けてくれてありがとう。
r - R tmパッケージは、最も頻繁な用語のマトリックスを作成します
Rのパッケージを使用してtermDocumentMatrix
作成しました。tm
最も頻繁に発生する50の用語を持つマトリックス/データフレームを作成しようとしています。
行列に変換しようとすると、次のエラーが発生します。
そこで、Matrixパッケージを使用してスパース行列に変換してみました。
以下を使用して、tdmのさまざまな部分にアクセスしてみました。
その他の情報は次のとおりです。
私の理想的な出力は次のようなものです。
助言がありますか?