問題タブ [topicmodels]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
31281 参照

r - RトピックモデルのDocumentTermMatrixから空のドキュメントを削除しますか?

私はRのtopicmodelsパッケージを使用してトピックモデリングを行っています。コーパスオブジェクトを作成し、いくつかの基本的な前処理を行ってから、DocumentTermMatrixを作成しています。

そして、LDAを実行します。

このLDA()の最後の呼び出しは、エラーを返します

これは、前処理後に用語が含まれていないドキュメントが少なくとも1つあることを意味すると思います。DocumentTermMatrixから用語を含まないドキュメントを削除する簡単な方法はありますか?

topicmodelsパッケージのドキュメントを調べたところ、関数removeSparseTermsが見つかりました。この関数は、どのドキュメントにも表示されない用語を削除しますが、ドキュメントを削除するための類似物はありません。

0 投票する
3 に答える
4954 参照

python - gensim 辞書にトークンを追加する方法

を使用して、ドキュメントのコレクションから辞書を作成します。各ドキュメントはトークンのリストです。これは私のコード

私の質問は、この辞書に新しいドキュメント (トークン) を追加して更新する方法です。gensim ドキュメントを検索しましたが、解決策が見つかりませんでした

0 投票する
2 に答える
1706 参照

r - R でドキュメント ターム マトリックスの行を正規化するにはどうすればよいですか?

train_dtm という名前の DocumentTermMatrix があり、すべてのドキュメントで用語頻度の頻度カウントを正規化したいと考えています。私が直面している問題は、R.

以下は私が使用している方法です:

ここで、上記の documenttermmatrix の行を正規化します。を介して制御パラメーターを追加しようとしました

しかし、上記の呼び出しはエラーをスローします

apply() メソッドを使用して train_dtm の値を正規化するメソッドを作成しましたが、DocumentTermMatrix 型の行列を返しません。

上記のタスクを達成する別の方法はありますか?

0 投票する
1 に答える
1032 参照

r - Rの「トピックモデル」を使用してトピックモデルをトレーニングした後のドキュメントトピック確率:ガンマまたは事後()?

以下は、ギブス サンプリングを使用して 3328 個のテキスト ファイルをトレーニングした後に得られるものです。document_topic 確率を含むファイルを保存する必要があります。ガンマはドキュメントトピック確率ですか? しかし、ほとんどの数値は平滑化されており、ドキュメント トピックの確率に関してはあまり有益ではありません。「事後」関数を使用して、トレーニングされたデータの新しいデータの確率を予測する必要がありますか?

0 投票する
0 に答える
135 参照

r - which.max(sapply, train_gibbs, logLik) エラー

そのため、Grun と Hornik ( http://www.jstatsoft.org/v40/i13/ ) の 10 倍の交差検証方法に従って、10 倍のトレーニングとテスト セットから perplexity を計算しています。しかし、以下のコードの最後に記載されている test_gibbs を作成するとエラーが発生します。誰でもこの問題を解決する方法を提案できますか? 前もって感謝します。

which.max(sapply, train_gibbs, logLik) のエラー: 未使用の引数 (train_gibbs, logLik)

0 投票する
1 に答える
1237 参照

r - 単一の LDA トピックを日付別にグラフ化する (R)

LDA を実行しようとしているいくつかのジャーナル (ジャーナル A とジャーナル B としましょう) からのテキスト ファイルのグループがあります。それらをそれぞれ独自のコーパスに分割し、ファイルの名前を各コーパスに添付し、元のジャーナルをoriginラベルの下に保存し、最後に 2 つのコーパスを次のように結合しmyCorpusます。

ここから、次の場所で LDA を実行しmyCorpusます。

ここから、特定のトピックに起因する各ジャーナルの割合を経時的に測定するプロットを作成したいと思います (txt ファイルを解析することでジャーナルの各号が発行された時間を特定し、それらをベクトルに保存できます)。originタグで行った方法と同様に)。公開された日付を横軸として使用できるように、この情報を保存する最善の方法がわかりません。さらに重要なことは、私が言及したグラフをどのように作成できますか?

0 投票する
1 に答える
933 参照

r - R(topicmodels) を使用した LDA のさまざまな結果

Rtopicmodelsを使用して小さなコーパスから LDA モデルをトレーニングしていますが、同じコードを繰り返すたびに、異なる結果 (異なるトピックと異なるトピック用語) が得られることがわかりました。私の質問は、なぜ同じ条件と同じコーパスが毎回結果が異なりますが、結果を安定させるにはどうすればよいですか? これが私のコードです:

試してみset.seedましたが、うまくいかないようです。LDA モデルは、同じコーパスでトレーニングするたびに異なるトピックを生成しますが、これは Python のものです。

0 投票する
1 に答える
591 参照

r - R topicmodels パッケージでは、トピックの用語分布をどのように取得できますか?

topicmodels パッケージを使用して LDA を実行しています。

これらのコードは、15 項をその割合で並べ替えます。LDAアルゴリズムをよく理解していなければ。各トピックは用語の分布です。したがって、これらの用語の正確な分布を知りたいです。例えば。Topic.1 は 38 に 30%、40 に 20% などです。topicmodelsパッケージを使用して取得する方法はありますか?