問題タブ [tm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - コーパスの各ドキュメントで最も頻繁に使用される用語を見つける
私はRのtm
パッケージを使用しており、分類の問題で多くの成功を収めています。コーパス全体で最も頻繁に使用される用語を見つける方法は知っていますが ( を使用findFreqTerms()
)、最も頻繁に使用される用語を見つける方法はドキュメント内にありません (ストップワードをステミングして削除した後、まばらな用語を削除する前に)コーパス内の個々のドキュメント内。apply()
とコマンドを使用してみましmax
たが、これにより、用語自体の名前ではなく、各ドキュメント内の用語の最大回数が得られます。
考え?
r - メモリエラーなしで大規模なコーパスで tm_map を使用する方法は?
tmパッケージを使用してテキスト マイニングを実行しようとしています。そこでcorpus
、文字列ベクトルから を作成します。次に、 , を使用tolower
してすべての大文字を削除すると、エラーが発生します。
コーパスの作成に使用している文字列ベクトルには 5621 行あり、最長の文字列は 4590 文字です。
を使用して、そのコマンドに不可欠ではないすべてのオブジェクトをメモリから削除しましたrm(list=ls())
。しかし、違いはありません。
32GBのRAMを搭載したサーバーで実行しています:
どうすればこれを修正できますか、またはサーバーの強度が十分ではありませんか?
r - テキストをクリーンアップする R の TM パッケージ
R で TM パッケージを使用してテキスト コーパスをクリーンアップしようとしていますが、このエラーが引き続き発生します。
私のデータは、テキスト ファイルから読み取ったチャット ログで構成されており、R では次のようになります。
私が使う:
しかし、私はこのエラーが発生します:
データフレームを関数にフィードすることになっていないようですが、他にどうすればよいですか?
ありがとう
r - tm パッケージ自体は、文書と用語のマトリックスを結合する組み込みの方法を提供しますか?
tm パッケージ自体は、文書と用語のマトリックスを結合する組み込みの方法を提供しますか?
同じコーパスで、それぞれ 1、2、3、4 グラムの 4 つの文書用語マトリックスを生成しました。それらはすべて非常に大きい: 200k*10k であるため、それらをデータ フレームに変換してから cbinding することは問題外です。各行列のゼロ以外の要素を記録するプログラムを作成し、スパース行列を構築できることは知っていますが、それは大変な作業です。tm パッケージがこの機能を提供するのは当然のことです。もしそうなら、私はすでに構築されたものを再構築したくありません。
そうでない場合、プログラムを作成して dtms のゼロ以外の要素のインデックスを記録してから疎行列を作成するよりも、dtms を組み合わせる便利な方法はありますか?
r - R tm を使用して用語/エンティティ間の傾向を見つける
私は、汚染物質の運命と輸送に関するテキスト文書のコーパスを持っています。termdocumentmatrix と用語の関連付けを行いました。ただし、用語間の「傾向の関連性」を見つけたいと思います。たとえば、周辺光が増えると化学物質 X の加水分解が増加するかどうかを調べたいと思います。termdomumentmatrix には既に「light」、「hydrolysis」、「increase」、「chemicalX」がありますが、上記の質問に答えるにはどうすればよいですか? 私はすでにこれらの用語の間で findAssocs を行っており、それらはある程度積極的にリンクされていることに注意してください (すべて 0.5 以上)。
お知らせ下さい。ありがとう
以下は、私が使用した大まかな tm プロセスです。他にも多くのドキュメントがあり、たとえば、小さなテキストを抜粋しただけであることに注意してください。
r - R を使用したテキスト マイニング Reuters-21578
よく知られている Reuters-21578 データセットを使用していくつかの作業を行おうとしていますが、コーパスに sgm ファイルをロードする際に問題が発生しています。
現在、私はコマンドを使用しています
すべてのファイルをコーパスに含めようとすると、次のエラーが表示されます。
私が間違っている可能性がある場所はありますか?
r - wordcloud パッケージ: 「strwidth(…) のエラー: 無効な 'cex' 値」を取得する
R 2.15.1 で tm および wordcloud パッケージを使用しています。ワードクラウドを作成しようとしています コードは次のとおりです。
しかし、次のエラーが発生します