問題タブ [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R: dtm with ngram tokenizer plus dictionary broken in Ubuntu?
I am creating a document term matrix, with a dictionary and ngram tokenization. It works on my Windows 7 laptop, but not on a similarly configured Ubuntu 14.04.2 server. UPDATE: It also works on a Centos server.
Error from the Ubuntu server (at the last line in the source example):
I have already tried some of the suggestions in Twitter Data Analysis - Error in Term Document Matrix and Error in simple_triplet_matrix -- unable to use RWeka to count Phrases
I had thought my problem could be attributed to one of these, but now the script is running on a Centos server with the same locales and JVM as the problematic Ubuntu server.
- the locales
- the minor difference in JVMs
- the parallel library? mclapply is mentioned in the error message, and parallel is listed in the session info (for all systems, though.)
Here are the two environments:
R version 3.1.2 (2014-10-31) Platform: x86_64-w64-mingw32/x64 (64-bit)
R version 3.1.2 (2014-10-31) Platform: x86_64-pc-linux-gnu (64-bit)
R version 3.2.0 (2015-04-16) Platform: x86_64-redhat-linux-gnu (64-bit) Running under: CentOS Linux 7 (Core)
r - R tm パッケージ: テキストを肯定的な参照単語リストと比較し、肯定的な単語の出現回数を返す方法
tm ライブラリを使用してテキストを肯定的な参照単語リストと比較し、肯定的な単語の出現回数を返す最善の方法は何ですか?参照テキスト内の肯定的な単語の合計を返すことができるようにしたいと考えています。
質問: これを行う最善の方法は何ですか?
例えば:
参照テキスト:
ここにいくつかの背景があります:
私がやろうとしているのは、肯定的な作品の数を数え、その数をデータフレームに新しい列として保存することです。
したがって:
text は dataFrameIn の列です (つまり、dataFrameIn$text)
r - R パッケージ Quanteda で LIWC 形式の辞書をどのように使用しますか?
LIWC ソフトウェアと辞書はプロプライエタリであるため、まだ開発中ですが、優れた R パッケージである Quanteda とうまく連携しているように見えてうれしく思いました。
R パッケージ Quanteda のドキュメントは、LIWC 形式のディクショナリでの使用を示しています。このSO ポストも同様です。
LIWC 2015 を購入しましたが、辞書をアプリケーションの外部に PDF 以外にエクスポートする方法がわかりません。
r - lexisnexis の出力を R quanteda にインポートする
Benoit の R パッケージ quanteda を使用して、lexisnexis からエクスポートされた記事を分析します。エクスポートは標準の html 形式です。tm パッケージ + プラグインを使用して、lexisnexis の出力を読み取ります。残念ながら、tm-corpus を quanteda-corpus に変換するときにエラーが発生します。その機能は壊れていますか、それとも以前に何か間違っていましたか?
r - R でストップワードなしでバイグラムを形成する
最近Rを使ったテキストマイニングでバイグラムに困っています。目的は、ニュースで意味のあるキーワードを見つけることです。たとえば、「スマートカー」や「データマイニング」などです。
次のような文字列があるとします。
ストップワード ("have"、"a"、"in"、"the"、"for") を削除した後、
その結果、「成功したコンピューター」や「業界の過去」のようなバイグラムが発生します。
しかし、私が本当に必要としているのは、「コンピューター産業」が私が望むバイグラムの明確な例であるなど、2 つの単語の間にストップワードが存在しないことです。
私のコードの一部は以下の通りです:
TFカウント時に「成功したコンピューター」などの言葉で結果を回避する方法はありますか?
r - quanteda を使用して R の大規模なコーパスでコサイン類似度を計算する
私は、約 85,000 のツイートの非常に大きなコーパスを操作して、テレビ コマーシャルのダイアログと比較しようとしています。ただし、コーパスのサイズが原因で、「エラー: サイズ n のベクトルを割り当てることができません」というメッセージ (私の場合は 26 GB) を取得せずに余弦類似度測定を処理できません。
大量のメモリを搭載したサーバーで既に R 64 ビットを実行しています。また、メモリが最も多いサーバー (244 GB) で AWS を使用しようとしましたが、役に立ちませんでした (同じエラー)。
fread のようなパッケージを使用してこのメモリ制限を回避する方法はありますか? それとも、データを分割する方法を考え出す必要がありますか? 助けてくれてありがとう、私は以下のコードを追加しました: