問題タブ [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Folding in (estimating topics for new documents) in LDA using Mallet in Java
I'm using Mallet through Java, and I can't work out how to evaluate new documents against an existing topic model which I have trained.
My initial code to generate my model is very similar to that in the Mallett Developers Guide for Topic Modelling, after which I simply save the model as a Java object. In a later process, I reload that Java object from file, add new instances via .addInstances()
and would then like to evaluate only these new instances against the topics found in the original training set.
This stats.SE thread provides some high-level suggestions, but I can't see how to work them into the Mallet framework.
Any help much appreciated.
machine-learning - Bleiのlda-c-distの推論結果について
lda-c-dist パッケージの推論結果について質問があります。推論の結果を表示するときに表示される単語数は? たとえば、単語数を非常に大きな数 N (すべての用語の数を N と仮定) に設定すると、いくつかの単語グループが存在するように見えます。各グループでは、単語のインデックスは 1 から N の範囲です。
私が得たのは、用語の数が10であると仮定し、表示される単語の数を10に割り当てるようなものです。
どうやら、表示される単語を 10 ではなく 3 に設定する必要があるようです。
では、1 つのトピックについて、topics.py を呼び出してトピックを表示する場合、何語を指定すればよいのでしょうか。
さらに、この出力を使用して、2 つのトピックの類似性を計算します。そう ...
twitter - トピック検出のためのツイート間の表現と適切な類似性測定
Twitterでトピック検出用のツールを作成する予定です。私は、2 つのツイート間の適切な類似度 (距離)と、カウントを考慮してそれらを表す方法について考えてきました。
- (
#hashtags
Twitterで話題を探るにはハッシュタグがとても重要だと思います) - 返信 (誰かがツイートに返信した場合、それらのツイートは同じトピックについて話している可能性がありますが、2 人がsamsung galaxyについて話し始めて、 iPhone 脱獄について話し終わる可能性があります。)
私はこれまでに持っているものを実装し、いくつかの実験を行うことを考えています. 古典的なモデル (ユークリッド距離、角度余弦TF*IDF
などを使用) と、いくつかの類似度 (ハミング、ジャカードなど) を持つブール モデルを実装します。
既存のモデルをTwitterに適応させる方法や、新しいモデルを作成する方法についてのアイデアはありますか?
mahout - mahout 0.8でcvbを実行します
現在の Mahout 0.8-SNAPSHOT には、トピック モデリング用の Collapsed Variational Bayes (cvb) バージョンが含まれており、潜在ディリクレ分析 (lda) アプローチが削除されています。これは、cvb の方が優れた方法で並列化できるためです。残念ながら、例を実行して意味のある出力を生成する方法に関するldaのドキュメントしかありません。
したがって、私はしたい:
- 一部のテキストを正しく前処理する
- cvb の cvb0_local バージョンを実行します
- 生成された各トピックの上位 n 単語を調べて、結果を調べます
r - トピックモデルを使用した LDA で、さまざまなドキュメントがどのトピックに属しているかを確認するにはどうすればよいですか?
私は topicmodels パッケージの LDA を使用しています。約 30,000 のドキュメントで実行し、30 のトピックを取得し、トピックの上位 10 語を取得しました。非常によく見えます。しかし、どのドキュメントがどのトピックに属しているかを最も高い確率で確認したいのですが、どうすればそれを行うことができますか?
nlp - NLPのストップワードのリスト
he, she, it
NLPまたはIR/IE関連のタスクを実行するときに句読点を削除してクラスの単語(など)を閉じるために人々が通常使用するストップワードのリストはありますか?
私は語義の曖昧性解消のためにギブスサンプリングを使用してトピックモデリングを試してきましたが、コーパスに頻繁に現れるという理由だけで、句読点や近いクラスの単語に高い確率を与え続けています。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py
python - gensim から LDA トピック モデルを印刷するには? パイソン
を使用しgensim
て、LSA の一連のドキュメントからトピックを抽出できましたが、LDA モデルから生成されたトピックにアクセスするにはどうすればよいですか?
lda.print_topics(10)
コードを印刷すると、次のエラーが発生print_topics()
しましたNoneType
。
コード:
python - LDA モデルは、同じコーパスでトレーニングするたびに異なるトピックを生成します
Pythongensim
を使用して、231 文の小さなコーパスから潜在的ディリクレ配分 (LDA) モデルをトレーニングしています。ただし、プロセスを繰り返すたびに、さまざまなトピックが生成されます。
同じ LDA パラメータとコーパスが毎回異なるトピックを生成するのはなぜですか?
また、トピックの生成を安定させるにはどうすればよいですか?
私はこのコーパス(http://pastebin.com/WptkKVF0)とストップワードのリスト( http://pastebin.com/LL7dqLcj )を使用しています。これが私のコードです:
python - Gensim トピックの印刷エラー/問題
全て、
これは、このスレッドで回答した内容の再投稿です。gensim で LSI トピックを印刷しようとすると、まったくおかしな結果が得られます。これが私のコードです:
これにより、以下がコンソールに出力されます。
@2er0 がここで行ったようにトピックを印刷できるようにしたいのですが、このような結果が得られています。以下を参照してください。出力された 2 番目の項目はタプルであり、どこから来たのかわからないことに注意してください。data.txt は、いくつかの段落を含むテキスト ファイルです。それだけです。
これについての考えは素晴らしいでしょう!アダム
r - R の関数 topicmodels::lda のエラー
R の topicmodels パッケージの LDA モデルを使用しようとしています。メソッドの不安定性を測定する必要があるため、w = 3000 単語、t = 8 トピック、d = 50 ドキュメントのディリクレ分布から真のパラメータを生成しました。各自:
したがって、私のドキュメントの行列は疎行列 d * w であり、ほとんどすべての要素が 0 または 1 です。
次に、docs マトリックスを documentTermMatrix クラスのオブジェクトにして、topicmodels:lda() で使用する必要があります。
Gibbs サンプリング法を使用する必要があるため、次のように記述します。
そして、私は得る:
lda.default(docs, t, method = "Gibbs") のエラー: nrow(x) と length(grouping) が異なります
この topicmodels パッケージは MASS パッケージを使用していると思いますが、このグループ化パラメーターは明示的に制御できないものですよね? または、データの何が間違っていますか?
私を助けてください!
BR、マリア