問題タブ [quanteda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1011 参照

r - R と Quanteda を使用したコーパスの分割トークン化

私はNLPのプロジェクトに取り組んでいます。いくつかのブログ、ニュース、ツイート (おそらくこのキャップストーンについては既に聞いたことがあるでしょう) を .txt ファイルに取り込んで、n-gram 頻度を作成する必要があります。

txtファイルをdata frame分析用の周波数にする手順について実験を行いました。

プロセスのボトルネックは、トークン化と dfm への変換のステップでした (5 倍以上の時間がかかりました)。

私には2つの選択肢がありました:

No.1が一番良さそうに見えたのですが、今のところ自分の思い通りにできる機能やパッケージが見つかりません。そのため、最初から 20 チャンクで分割読み取りする長いコードを記述します (計算上の制約のため)。

パッケージで作成されたコーパス(「コーパス」「リスト」)quantedaをチャンク(私が定義した行)に分割して、「ストリーミング」のような方法でトークン化してdfmに変換できる方法はありますか?