問題タブ [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - アイリスデータセットで混同行列を計算するには?
データセット: アイリス LDA (線形判別分析) モデルのデータセットで混同行列を計算する方法は?
machine-learning - 文書分類のための教師あり潜在的ディリクレ割り当て?
いくつかのグループには、すでに人間が分類したドキュメントがたくさんあります。
モデルをトレーニングし、後でそれを使用して未知のドキュメントを分類するために使用できるldaの修正バージョンはありますか?
r - すべてのパッケージには、R の Labeled-LDA 実装が含まれています
R を使用して教師ありトピック モデルに取り組んでいます。ラベルを持つ数千語のドキュメントがあり、新しいドキュメントにラベルを自動的に割り当てるアプリケーションを設計したいと考えています。Rを使用してアルゴリズムをテストし、最適なものを選択しています。
私の質問は: Labeled-LDA を実装する R パッケージはありますか?
ところで: 私はパッケージを試しました: tm
、 topicmodel
、lda
およびRTextTools
、そして SVM LDA などのいくつかのアルゴリズムを試しました
amazon-ec2 - Mahout LDA: 実際に使用できる最大の辞書サイズは?
EC2 で Mahout の LDA を実行しています (Whirr を使用)。あなたが実際に使うことができた最大の語彙は何ですか? Hadoop/EC2 の設定をいくつか教えていただけますか?
理想的には、20M トークンの辞書を使用して、3M ドキュメント (1B トークン) のコーパスで LDA を実行したいと考えています。
私は LDA の他の map-reduce 実装 (hadoop-lda、LDA 氏) を試しましたが、あまりスケールアップできませんでした (私が間違っていることを証明してください!)
python - R LDAトピックモデルをTopic Model Visualization Engine (TMVE)にパイプする方法は?
Python でトピック モデルとトピック ブラウザを構築するための適切なフレームワークは何ですか?
Topic Model Visualization Engine (TMVE) は、Latent Dirichlet Allocation の結果をパイプして、それらを Web サイトに配置する場合があります。R でトピックモデル ライブラリを使用することは既に学習しましたが、それを TMVE にパイプする方法がわかりません。
主に、Python または R を使用するソリューションを探しています。R 出力から独自の (本当にくだらない) トピック ブラウザーを構築しようとするかもしれません。
これは 1、2 年ほど前に話題になった研究テーマのようです。David Blei のページのリソースは古くなっているようです。
TMVEは gitHubにあるようです。最後に編集されたのは 1 年前です。
matlab - 線形判別分析 LDA
多次元データ (240 次元) の大規模なデータセットがあります。
私はデータ マイニングの初心者で、MATLAB を使用して線形判別分析を適用したいと考えています。しかし、ウェブ上で説明されている関数がたくさんあるのを見てきましたが、それらをどのように適用すればよいのかわかりません。
基本的にはLDAを適用したい。
このステップの後、自分のデータを再構築できるようにしたいと考えています。
これは手動で行うことができますが、既に最適化されている必要があるため、これを行うことができる事前定義された関数があるかどうか疑問に思っていました。
私の初期データは次のようなものです: size(x) = [2000 240]
. つまり、基本的に 240 の機能 (ディメンション) と 2000 のデータ ポイントがあります。そして、このデータセットに対して LDA を実行したいと考えています。
python - gensimのLDAモデルでトピック番号を取得するにはどうすればよいですか
text_corpus で gensim を使用して LDA モデルをトレーニングしました。
新しいテキスト ドキュメント text_sparse_vector を推論する必要がある場合は、私がしなければなりません
しかし、対応する各トピックの単語分布を取得するにはどうすればよいですか。たとえば、トピック番号 16 の上位 20 語を知るにはどうすればよいですか?
クラスgensim.models.ldamodel.LdaModelにはshow_topics(topics = 10、topn = 10、log = False、formatted = True)というメソッドがありますが、ドキュメントに記載されているように、ランダムに選択されたトピックのリストが表示されます。
リンクまたは印刷する方法はありますか? 推測されたトピック番号を単語分布にマップできますか?
r - RトピックモデルのDocumentTermMatrixから空のドキュメントを削除しますか?
私はRのtopicmodelsパッケージを使用してトピックモデリングを行っています。コーパスオブジェクトを作成し、いくつかの基本的な前処理を行ってから、DocumentTermMatrixを作成しています。
そして、LDAを実行します。
このLDA()の最後の呼び出しは、エラーを返します
これは、前処理後に用語が含まれていないドキュメントが少なくとも1つあることを意味すると思います。DocumentTermMatrixから用語を含まないドキュメントを削除する簡単な方法はありますか?
topicmodelsパッケージのドキュメントを調べたところ、関数removeSparseTermsが見つかりました。この関数は、どのドキュメントにも表示されない用語を削除しますが、ドキュメントを削除するための類似物はありません。
scala - スタンフォードトピックモデリングツールボックスの標準的な英語のストップワードを削除する
LDAにStanfordTopicModeling Toolbox 0.4.0を使用していますが、標準の英語のストップワードを削除したい場合は、トークナイザーStopWordFilter("en")
の最後のステップとしてを使用できることに気付きましたが、どのように使用すればよいですか?
machine-learning - Bleiのlda-c-distの推論結果について
lda-c-dist パッケージの推論結果について質問があります。推論の結果を表示するときに表示される単語数は? たとえば、単語数を非常に大きな数 N (すべての用語の数を N と仮定) に設定すると、いくつかの単語グループが存在するように見えます。各グループでは、単語のインデックスは 1 から N の範囲です。
私が得たのは、用語の数が10であると仮定し、表示される単語の数を10に割り当てるようなものです。
どうやら、表示される単語を 10 ではなく 3 に設定する必要があるようです。
では、1 つのトピックについて、topics.py を呼び出してトピックを表示する場合、何語を指定すればよいのでしょうか。
さらに、この出力を使用して、2 つのトピックの類似性を計算します。そう ...