問題タブ [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - (スパース) ドキュメント機能マトリックスで ngram を分割する
これは、これに対するフォローアップの質問です。そこで、たとえばバイグラムが 2 つの個別のユニグラムになるような方法で、ドキュメント機能マトリックス (quanteda パッケージの dfm クラス) で ngram 機能を分割することが可能かどうかを尋ねました。
理解を深めるために、機能をドイツ語から英語に翻訳して、dfm の ngram を取得しました。化合物 ("Emissionsminderung") はドイツ語では静かに一般的ですが、英語では一般的ではありません ("emission reduction")。
この例には素晴らしい答えがありました。これは、上記のような比較的小さな行列に対して完全にうまく機能します。ただし、マトリックスが大きくなるとすぐに、次のメモリエラーが常に発生します。
したがって、この ngram 問題を解決したり、大きな (スパース) 行列/データ フレームを処理したりするための、よりメモリ効率の良い方法はありますか? 前もって感謝します!
r - Rの既存のデータフレームへのKWIC
Quanteda パッケージの結果を取得して、既存のスプレッドシートに追加したいと考えています。例えば:
これにより、複数の列を持つデータフレームが作成されます。これを元のデータ (この場合は x) に追加し、残りを NULL または NA にします。
dplyr の mutate は正しいことですか? それとも他に何か必要ですか?
ありがとう!
r - Quanteda: 単語のリストから同一の機能を持つ dfm を作成する方法
記事を 2 つのカテゴリに分類したいので、記事の n-gram マトリックスでランダムフォレストを実行します。RF の結果、重要な変数のリストを受け取りました。
ここで、選択した最初の n 個の機能に対してのみランダム フォレストを実行し、同じ機能を使用して新しい分類を予測したいと考えています。そのためには、(RF からの) 最も重要な変数に対してのみ dfm を作成する必要があります。これらの重要な変数のリストから辞書を作成するにはどうすればよいですか?
コードの関連部分...辞書を作成した後、エントリは1つしかありません。それを適切に作成する方法は?
dfm()
簡単に言えば、文字列、単語、n-gram のリストがある場合、用語マトリックスを生成する関数で使用できるように辞書を作成するにはどうすればよいですか?
これは、完全なコード「再現可能な例」とそれが使用するデータへのリンクです。https://www.dropbox.com/s/3oe1tcfcaauer0wf/text_data.zip?dl=0
r - TM、Quanteda、text2vec。正規表現パターンに従って単語リストの用語の左側にある文字列を取得します
名前、住所、電話番号がいくつかの言語で存在するかどうか、テキストの大きなフォルダーを分析したいと思います。
これらは通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「配送業者」という単語で始まります。私はこれらの単語の辞書を持っています。
テキスト マイニング ツールがこの仕事に最適かどうか疑問に思っています。これらすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下で特定の (正規表現の基準について考えています) を満たすテキストを見つけたいと思います。
Rのデータマイニングパッケージにそのような構文はありますか?単語リスト エントリの右または下にある文字列、特定のパターンに一致する文字列を取得するには?
そうでない場合、仕事をするためのRのより適切なツールでしょうか?