問題タブ [tm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
29562 参照

r - tm() を使用して R のコーパスから英語以外のテキストを削除する

tm()R でいくつかの基本的なデータマイニングにandを使用しwordcloud()ていますが、データセットに英語以外の文字が含まれているため、問題が発生しています (バックグラウンド変数に基づいて他の言語を除外しようとしましたが.

TXT ファイル (TextWrangler で UTF-8 として保存) の一部の行が次のようになっているとします。

次に、txt ファイルを R に読み込みます。

これにより、次の警告メッセージが表示されます。

しかし、これはエラーではなく警告であるため、引き続き前進します。

これにより、次のエラーが発生します。

私は、TextWrangler または R のいずれかで英語以外の文字を除外する方法を見つけることにオープンです。最も都合の良いものは何でも。ご協力いただきありがとうございます!

0 投票する
0 に答える
137 参照

r - DocumentTermMatrix から用語をグループ化する

私はcsvファイルを持っています(「idNo」と「skillsList」が含まれています)。「skillsList」に該当するすべての「idNo」をクラスタ化したい

csv ファイルを R にロードし、「Document Term Matrix」を準備しました。「idNo」はすべてドキュメントで、「skillsList」はすべて用語です。マトリックスを正しく取得しましたが、「idNo」を「skillsList」でグループ化する方法がわかりません。

0 投票する
2 に答える
520 参照

r - tm の関数が R を繰り返しクラッシュさせる

実行したい次の行があります。

doc.corpus の長さは 191,000 で、dictionary_english は 48 です

私はこのコーパスの 3/4 サイズのコーパスでまったく同じ行を実行し、すべてが数分 (おそらく 5 分もかからない) でスムーズに実行されます。

今、この関数は私の MacBook Pro をクラッシュさせます。私はそれを 2 回実行しましたが、どちらの場合も、1 時間以上の計算の後、R と RStudio を強制終了する必要がありました。

通話を最適化する方法はありますか?

0 投票する
0 に答える
671 参照

r - 「プロセスが分岐しました...」Rでtmパッケージを使用中にエラーが発生しました

テキストマイニング分析を行うためにをインストールしtm packageました。コーパスを作成した後、次のエラー メッセージをスローする関数Rを使用したいと思いました。tm_map()

このメッセージが表示される理由を知っている人はいますか?

明確にするためのコードを次に示します。

OSX 10.7.5でR 3.0.1 GUI 1.61 Snow Leopardビルド(6492)を使用しています


0 投票する
1 に答える
930 参照

r - R: ID タグでコーパス文書を検索し、追加のタグを設定する

コーパス内の文書にタグをつけたい。タグは、特定の一意のドキュメント ID を持つデータフレーム内のコーパスの外に保存されます。

課題: (1) データフレームから各 ID を取得する、(2) コーパス内の対応するドキュメントを見つける、(3) データフレームから特定の ID を持つコーパス ドキュメントにタグを設定する。

助けていただきありがとうございます(;