問題タブ [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R と Quanteda を使用したコーパスの分割トークン化
私はNLPのプロジェクトに取り組んでいます。いくつかのブログ、ニュース、ツイート (おそらくこのキャップストーンについては既に聞いたことがあるでしょう) を .txt ファイルに取り込んで、n-gram 頻度を作成する必要があります。
txt
ファイルをdata frame
分析用の周波数にする手順について実験を行いました。
プロセスのボトルネックは、トークン化と dfm への変換のステップでした (5 倍以上の時間がかかりました)。
私には2つの選択肢がありました:
No.1が一番良さそうに見えたのですが、今のところ自分の思い通りにできる機能やパッケージが見つかりません。そのため、最初から 20 チャンクで分割読み取りする長いコードを記述します (計算上の制約のため)。
パッケージで作成されたコーパス(「コーパス」「リスト」)quanteda
をチャンク(私が定義した行)に分割して、「ストリーミング」のような方法でトークン化してdfmに変換できる方法はありますか?