問題タブ [topicmodels]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R で指定されたベクトル サイズが大きすぎます
キーワードの 1 つである「zomato」のツイートを取得しようとしており、取得したツイートでトピック モデリングを実行しようとしています。以下は、ツイートを取得するための検索機能です。
これを投稿して、通常どおりに行われ、変数「ZomatoCleaned」に保存されるツイートのクリーニングを行います。私はそのコードを追加していません。そして、以下に示すように、トピックモデリングを行うコーパスを形成します
残念ながら
「R で指定されたベクトル サイズが大きすぎます」または「サイズ 36.6Gb のベクトルを割り当てることができません」というエラーが表示されます。私は 8Gb RAM システムと Rstudio 3.5.2 を使用しています。gc() コマンドを実行し、memory.limit() も設定しようとしましたが、ヘルプはありません。このデータセットを処理するための回避策はありますか? 私はそれがメモリの問題であることを知っていますが、このシナリオに取り組む方法についてこれについて助けてください
データの O/P: structure(c(0, 1, 0, 0, 0, 0), weighting = c("用語頻度", "tf"), クラス = c("DocumentTermMatrix", "simple_triplet_matrix"))
r - 元のドキュメント ID を LDA オブジェクトから復元する
の関数を使用して、(特定のドキュメント内の) 用語からの「コンセンサス」トピック予測 (ベータ) と、ドキュメント自体からの最も可能性の高い予測トピック (ガンマ) を比較しようとしていますtopicmodels
。groupby()
over documentを使用してガンマを選択することで、ドキュメントから最も可能性の高い予測トピックを抽出するのは簡単top_n()
ですが、「ベータ版」の推定では、一意のドキュメント ID が出力で抑制され、出力には 3 つの列 ( topic
、term
、beta
)のみが含まれます。 . これでは、特定のドキュメントの用語から「コンセンサス」トピック予測 (ベータ) を取得することはできません。
例として私自身のデータを使用します。
とにかく、出力からドキュメントIDを復元し、推定値(オブジェクトとして保存されている)lda
と組み合わせることができますか? のコンセンサスと のコンセンサスから推定されたトピックを比較するのがはるかに簡単になるようにします。beta
word_topics
data.frame
beta
gamma