問題タブ [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5704 参照

lda - 潜在的ディリクレ配分解の例

潜在的ディリクレ配分法 (LDA) について学習しようとしています。私は機械学習と確率論の基本的な知識を持っており、このブログ投稿http://goo.gl/ccPvEに基づいて、LDA の背後にある直感を開発することができました。しかし、そこに含まれるさまざまな計算については、まだ完全には理解できていません。非常に小さなコーパス (たとえば 3 ~ 5 文と 2 ~ 3 トピック) を使用した計算を誰かに見せてもらえないかと思っています。

0 投票する
2 に答える
23811 参照

lda - LDA トピック モデリング - トレーニングとテスト

私は LDA を読み、ドキュメントのコレクションを入力したときにトピックがどのように生成されるかについての数学を理解しています。

参考文献によると、LDA は、ドキュメントのコレクションだけが与えられた場合 (監視は必要ありません)、そのコレクション内のドキュメントによって表現された「トピック」を明らかにすることができるアルゴリズムです。したがって、LDA アルゴリズムと Gibbs Sampler (または Variational Bayes) を使用することで、一連のドキュメントを入力し、出力としてトピックを取得できます。各トピックは、確率が割り当てられた用語のセットです。

私が理解できないのは、上記が当てはまる場合、なぜ多くのトピック モデリング チュートリアルで、データセットをトレーニング セットとテスト セットに分離することについて話しているのですか?

LDA を使用してモデルをトレーニングし、それを別のテスト データセットの分析に使用する方法の手順 (基本的な概念) を誰か説明してもらえますか?

0 投票する
1 に答える
608 参照

mahout - LDA Mahout のみの 1 つのトピック

Mahout In Action ブックに示されているように、ロイター データで LDA を使用する例に従ってみます。ただし、何度実行しても、トピックは常に 1 つしか取得できません。

示されているようにコマンドを実行しました:

seqdumper を実行して番号を取得しました。コマンドが実行された後、本に示されているように LDAPrintTopics を実行し、次の結果を取得します。

LDA からより多くのトピックを取得する方法はありますか?

ありがとう。

0 投票する
2 に答える
328 参照

c++ - C/C++ での非 GPL オープン ソース潜在的ディリクレ割り当ての実装/ライブラリ

私はいくつかの実装を知っています (主にこの質問から) が、それらはすべて GPL の下で公開されているようです。

GPL 制限のない (プラットフォームに依存しない) 実装はありますか?

0 投票する
3 に答える
3559 参照

mahout - Mahout を使用して LDA をトレーニングし、そのトピックを取得する

私は Apache Mahout を試していますが、LDA を使用してトピック モデルを生成する方法については多くの情報がありますが、新しい CVB lda アルゴリズムを使用して同じことを行う方法についてはほとんど情報がありません。私がやりたいのは、元の と同様に、単語からトピックへの確率を生成することですldatopic

これを行う方法に関する情報や例をいただければ幸いです。

ありがとう!

アップデート:

わかりました、私はこれをかなり解決しましたが、まだ不完全なので、どんな助けも素晴らしいでしょう!

0 投票する
1 に答える
1710 参照

scala - 推論標識 LDA/pLDA [Topic Modeling Toolbox]

TMTツールボックス(スタンフォードnlpグループ)を使用して、トレーニング済みのラベル付きLDAモデルとpLDAからの推論のためのコードを処理しようとしています。次のリンクで提供されている例を確認しました: http://nlp.stanford.edu/software/tmt/tmt-0.3/ http://nlp.stanford.edu/software/tmt/tmt-0.4/

ラベル付きLDA推論のために試しているコードは次のとおりです

エラー

found : scalanlp.collection.LazyIterable[(String, Array[Double])] required: Iterable[(String, scalala.collection.sparse.SparseArray[Double])] EstimateLabeledLDAPerWordTopicDistributions(model, dataset, perDocTopicDistributions);

タイプの不一致エラーであることは理解しています。しかし、これをscalaで解決する方法がわかりません。基本的に、infer コマンドの出力後に 1. ドキュメントごとのトピックの分布 2. ドキュメントごとのラベルの分布を抽出する方法がわかりません。

助けてください。pLDAの場合も同様です。私は推論コマンドに到達し、その後それをどうするかわかりません。

0 投票する
0 に答える
904 参照

hadoop - 既存のベクトルを Mahout ベクトルに変換する

指定されたベクトルで LDA を使用できるように、単語頻度値を mahout ベクトル表現に変換しようとしています。 mahout wiki に従っています。コード スニペストは、既存のベクトルを mahout ベクトルに変換する方法を提案しています。

https://cwiki.apache.org/MAHOUT/creating-vectors-from-text.html

これが私のコードです。VectorWriter を作成する場所で NullPointerException を取得しています。apache cwiki では、次の使用が推奨されています。

しかし、org.apache.hadoop.io.SequenceFile に SequenceFile.createWriter が表示されません。

これは完全なコード セグメントです。

このエラー、

org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) でのスレッド「メイン」での例外 java.lang.NullPointerException org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java) :910) org.apache.hadoop.io.SequenceFile$Writer で。(SequenceFile.java:843) org.apache.hadoop.io.SequenceFile$Writer で。(SequenceFile.java:831) org.apache.hadoop で。 io.SequenceFile$Writer.(SequenceFile.java:823) at kbsi.ideal.LDATest.iterableTest(LDATest.java:161) kbsi.ideal.LDATest.main(LDATest.java:194)

これについてご協力いただき、誠にありがとうございます。ありがとう

0 投票する
0 に答える
305 参照

r - LDAで分類を行うにはどうすればよいですか(手動)

RでLDAの分類規則を作成しようとしています。これは、ユークリッドの距離を使用しています。これは、固有ベクトル、g(x)= t(w)x - woテストデータ、2つのクラスの平均です。wxwo

True私の質問は、モデル(プロジェクトデータ)をモデル予測( - )に渡すにはどうすればよいFalseですか?ありがとうございました

0 投票する
1 に答える
1390 参照

mahout - Mahout LDA テスト データ セットのトピックを予測する方法は?

Apache Mahout の Web サイトhttps://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.htmlから、LDA モデルを適合させ、計算されたトピックを P("word" の形式で出力する手順を確認できます。 |「トピック番号」)。ただし、トピックの分布を予測するために、トレーニング済みのモデルをテスト データに適用する方法に関する情報はありません。それとも、条件付き確率の出力を使用してテスト データ セットからトピックを見つける独自のプログラムを作成する必要がありますか?

0 投票する
1 に答える
184 参照

php - IRC ログからのテキストの抽出

Irc ログからテキストを抽出したいと思います。次のようなirssiからの通常のIRCログがあります。

私が必要とするのは、次のような出力です。

したがって、空白で区切られた単語だけで、ニックネーム、引用符、疑問符などはありません。LDAの入力として必要です。

後処理でニックを削除します。簡単になると思いますか?

私は正規表現を使った PHP の方が好きです。それが苦手なので、皆さんに助けを求めます。

お時間をいただきありがとうございます!

編集:

今、私はこのコードを使用しています (m.buettner に感謝します):

それを改善するための提案は大歓迎です;)