問題タブ [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - featnames(myDFM) に複数のトークンの機能が含まれているのはなぜですか?
私は大規模な 100 万のドキュメント コーパスを扱っており、そこからドキュメント頻度マトリックスを作成するときにいくつかの変換を適用しました。
次に、結果の機能を確認します。
これらの特徴が 1:2 バイグラムよりも長いのはなぜですか? ステミングは成功しているように見えますが、トークンは単語ではなく文のようです。
コードをこれに調整しようとしdfm(tokens(corpus1M, what = "word")
ましたが、変更はありませんでした。
再現可能な小さな例を作成しようとしました:
次に、上記と同じ dfm を適用すると:
ほとんどすべての単語が削除されたので、これは驚くべきことでした? ストップワードも前と違うから、もっとドキドキ!また、試みたにもかかわらず、再現可能な例を作成することもできません。この関数の仕組みを誤解しているのかもしれません。
1:2 の単語トークンしかなく、ストップワードが削除されている quanteda で dfm を作成するにはどうすればよいですか?
classification - ドキュメントおよび文レベルでのテキストの分類 (Quanteda および RTextTools を使用)
LexisNexis からダウンロードしたコーパスに RTextTools を使用してテキスト分類を適用する方法を見つけようとしています。
Quanteda パッケージを使用して LexisNexis N html ファイルをドキュメント フィーチャ マトリックスに解析し、RTextTools を使用してそれらのファイル内のテキストを分類することに成功しました。
ただし、これらの N 個のテキストをドキュメント レベルだけでなく、文レベルでも分類できるようにしたいと考えています。これらの N 個のドキュメントを X 文からなる dfm に解析する方法が思いつきません。
さらに、トレーニング データのほとんどの文は無関係であり、今後は分類されないと思います。RTextTools は、テスト データ内の無関係な文をどのように処理しますか?