“topic-modeling”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

3531 参照

java - マレット：局所Nグラム

オプションを使用してマレットを実行したいのですが、--use-ngrams true機能しないようです。以下を使用してデータをインポートしました：

今、私は局所的なngramモデルを訓練したいと思います：

しかし、私はこのエラーを受け取ります：

ご覧のとおり、私はマレットをコマンドラインツールとして実行しており、APIをこじ開けて機能させることはしたくありません。助言がありますか？

2012-03-27T15:19:44.607

0 投票する

0 に答える

314 参照

text-mining - トピックモデルに適した Mallet クラス

Java のプロジェクトでMalletライブラリを使用しています。

それぞれ 400 個のトークンを持つ 15,000 個のドキュメントがあります。使ってみParallelTopicModelました。しかし、単一のトークンとトークンのシーケンスの両方を含む一連のトピックが必要です (たとえば、「Java」と「Java 開発者」)。

LDA-HMMの使用を検討しています。どのクラスのマレットを使用できますか?

次に、すべてのトピックをベイジアンネットワークのノードに変換し、トークンまたは一連のトークンを証拠として受け取り、推論を行います。そのためにどのJavaライブラリを使用できますか?

前もって感謝します。フランチェスコ

text-mining hidden-markov-models mallet lda topic-modeling

2012-04-24T09:47:25.557

0 投票する

2 に答える

6985 参照

r - Rのドキュメントのコーパスから「空の」文字アイテムを削除しますか？

私はニュース記事のコーパスをトピックモデル化するためにRのtmandパッケージを使用しています。ただし、トピックを台無しにしているlda「文字以外の」問題が発生しています。""これが私のワークフローです：

残念ながら、私がldaモデルをトレーニングすると、最も頻繁に出現する単語が ""であることを除いて、すべてが見栄えがします。以下に示すように語彙から削除し、上記のようにモデルを再推定することで、これを改善しようとしています。

しかし、それはまだそこにあります。

これを削除する方法について何か提案はありますか？ストップワードのリストに追加""しても役に立ちません。

r text-mining text-analysis lda topic-modeling

user836015

2012-05-07T20:02:53.947

0 投票する

1 に答える

2513 参照

python - Python でトピックモデルを実装する (numpy)

最近、あるサイトのコードを参考に、numpy を使って Python で LDA トピックモデルの Gibbs サンプリングを実装しました。ギブスサンプリングの反復ごとに、1 つの (現在の) 単語を削除し、LDA モデルから推測された事後条件付き確率分布に従ってその単語の新しいトピックをサンプリングし、次のように単語トピックカウントを更新します。

上記のコードでは、多項式 scipy 関数を使用して新しい (単一の) z をサンプリングします。

ここで、この論文の共同センチメントトピックモデルを実装したいと思います。ここで、必要なカウントを追跡するために次の構造が必要になります。

ここで問題が発生します。この Gibbs サンプラーでは、ドキュメントに表示される単語ごとに、新しいトピックと感情ラベルの両方が条件付き事後分布からサンプリングされます (論文の 4 ページの方程式 5)。Pythonで「これらの2つの値をサンプリングする」にはどうすればよいですか?

前もって感謝します...

python numpy machine-learning lda topic-modeling

2012-05-09T15:57:08.150

0 投票する

2 に答える

5704 参照

潜在的ディリクレ配分法 (LDA) について学習しようとしています。私は機械学習と確率論の基本的な知識を持っており、このブログ投稿http://goo.gl/ccPvEに基づいて、LDA の背後にある直感を開発することができました。しかし、そこに含まれるさまざまな計算については、まだ完全には理解できていません。非常に小さなコーパス (たとえば 3 ～ 5 文と 2 ～ 3 トピック) を使用した計算を誰かに見せてもらえないかと思っています。

lda topic-modeling

2012-05-16T18:48:30.853

0 投票する

2 に答える

23811 参照

lda - LDA トピックモデリング - トレーニングとテスト

私は LDA を読み、ドキュメントのコレクションを入力したときにトピックがどのように生成されるかについての数学を理解しています。

参考文献によると、LDA は、ドキュメントのコレクションだけが与えられた場合 (監視は必要ありません)、そのコレクション内のドキュメントによって表現された「トピック」を明らかにすることができるアルゴリズムです。したがって、LDA アルゴリズムと Gibbs Sampler (または Variational Bayes) を使用することで、一連のドキュメントを入力し、出力としてトピックを取得できます。各トピックは、確率が割り当てられた用語のセットです。

私が理解できないのは、上記が当てはまる場合、なぜ多くのトピックモデリングチュートリアルで、データセットをトレーニングセットとテストセットに分離することについて話しているのですか?

LDA を使用してモデルをトレーニングし、それを別のテストデータセットの分析に使用する方法の手順 (基本的な概念) を誰か説明してもらえますか?

lda topic-modeling

2012-06-22T18:52:19.667

0 投票する

1 に答える

3050 参照

javascript - Javascript - Web ワーカーが終了するのを待ちますか?

プロジェクトの一環として、javascript でトピックモデリングのLDAアルゴリズムを実装しています。ボタンをクリックすると、LDA を実行する関数が呼び出されます。ただし、これは非常に負荷の高いタスクであるため、関数が呼び出されたときにブラウザーが約 15 秒間ハングしていました (処理中にアニメーション GIF の読み込みが機能していませんでした)。

そこで、この機能をweb workerとして実装しました。これにより、ハングアップの問題が解決されますが、ロードアニメーションが数秒以内に消え、その後 12 ～ 14 秒後に結果が表示されます。

処理中にローダーをアニメーション化する方法はありますか? ローディングアニメーションが消える前に、Web ワーカーが計算を完了するのを待ちます。

スクリプトは非同期で呼び出され、ローダーは jQuery の ajax イベントに次のようにアタッチされます。

javascript ajax web-worker topic-modeling

2012-06-30T07:10:10.993

0 投票する

3 に答える

3559 参照

mahout - Mahout を使用して LDA をトレーニングし、そのトピックを取得する

私は Apache Mahout を試していますが、LDA を使用してトピックモデルを生成する方法については多くの情報がありますが、新しい CVB lda アルゴリズムを使用して同じことを行う方法についてはほとんど情報がありません。私がやりたいのは、元のと同様に、単語からトピックへの確率を生成することですldatopic。

これを行う方法に関する情報や例をいただければ幸いです。

ありがとう！

アップデート：

わかりました、私はこれをかなり解決しましたが、まだ不完全なので、どんな助けも素晴らしいでしょう!

mahout lda topic-modeling

2012-07-25T14:11:13.490

0 投票する

1 に答える

1710 参照

scala - 推論標識 LDA/pLDA [Topic Modeling Toolbox]

TMTツールボックス（スタンフォードnlpグループ）を使用して、トレーニング済みのラベル付きLDAモデルとpLDAからの推論のためのコードを処理しようとしています。次のリンクで提供されている例を確認しました: http://nlp.stanford.edu/software/tmt/tmt-0.3/ http://nlp.stanford.edu/software/tmt/tmt-0.4/

ラベル付きLDA推論のために試しているコードは次のとおりです

エラー

found : scalanlp.collection.LazyIterable[(String, Array[Double])] required: Iterable[(String, scalala.collection.sparse.SparseArray[Double])] EstimateLabeledLDAPerWordTopicDistributions(model, dataset, perDocTopicDistributions);

タイプの不一致エラーであることは理解しています。しかし、これをscalaで解決する方法がわかりません。基本的に、infer コマンドの出力後に 1. ドキュメントごとのトピックの分布 2. ドキュメントごとのラベルの分布を抽出する方法がわかりません。

助けてください。pLDAの場合も同様です。私は推論コマンドに到達し、その後それをどうするかわかりません。

scala nlp stanford-nlp lda topic-modeling

2012-07-28T08:17:56.960

問題タブ [topic-modeling]

java - マレット：局所Nグラム

text-mining - トピックモデルに適した Mallet クラス

r - Rのドキュメントのコーパスから「空の」文字アイテムを削除しますか？

python - Python でトピックモデルを実装する (numpy)

lda - 潜在的ディリクレ配分解の例

lda - LDA トピックモデリング - トレーニングとテスト

javascript - Javascript - Web ワーカーが終了するのを待ちますか?

mahout - Mahout を使用して LDA をトレーニングし、そのトピックを取得する

scala - 推論標識 LDA/pLDA [Topic Modeling Toolbox]

問題タブ [topic-modeling]

Reference