問題タブ [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - LDA - Python の認識パターン (sklearn)
このコードを Python で実行しようとしています。このコードは、sklearn の LDA を参照しています。
clf = LDA() clf.fit(X,y) print(clf.predict([0, 2]))
次のエラー メッセージを表示します。
私はそれを修正するために何をしますか?ドキュメントでこの解決策を見つけることができませんでした。
python - sklearnを使用したPythonのLDA
Pythonでsklearnを使用してLDAアルゴリズムを実装しようとしています
コードは次のとおりです。
しかし、メッセージエラーが発生しました:
このエラーを解決するにはどうすればよいですか?
SKLEARN http://scikit-learn.org/stable/modules/generated/sklearn.lda.LDA.htmlのこのバージョンの LDA を使用しています。
どうもありがとうございました!
python - gensim を使用した LDA 実装の理解
Python の gensim パッケージが潜在的ディリクレ割り当てを実装する方法を理解しようとしています。私は次のことをしています:
データセットを定義する
ストップワードを削除した後、辞書とコーパスを作成します。
次に、LDA モデルを定義します。
次に、トピックを印刷します。
この結果から多くを理解することはできません。各単語の出現確率を提供していますか? また、トピック #1、トピック #2 などの意味は何ですか? 多かれ少なかれ、最も重要なキーワードのようなものを期待していました。
gensim のチュートリアルは既に確認しましたが、あまり役に立ちませんでした。
ありがとう。
r - RのLDAにおける複数のクラスのフィッシャーの分類関数係数
パッケージMASSを使用してRで線形判別分析のフィッシャー分類関数係数を取得しようとしたときのspssのように、LDAに関連するRに少し疑問があります。次のような線形判別の係数のみを取得しています。
線形判別係数:
しかし、グループ化変数には 7 つのグループがあります。Excel でさらに分析するために使用できるように、5 つの変数すべてのクラスターごとにフィッシャー分類関数係数を取得する必要があります。同様のテーブルを以下に追加する予定です。
分類関数係数
したがって、Rで上記と同じ出力が必要です。助けてください:
matlab - MatLab の LDA コード例はありますか?
小さなデータ セット (65x8) で単純な LDA を実行したいと考えています。65 個のインスタンス (サンプル)、8 個の機能 (属性)、および 4 個のクラスがあります。Matlab Toolbox には LDA 関数がないことがわかっているため、 LDA の matlab コードはすべて、独自のコードを記述する必要があります。何か助けはありますか?
私はウェブ上でこのコードを見つけます
次に、この結果を得ました ldaClass =
エラー =
P =
係数 =
フィールドを持つ 4x4 構造体配列: type name1 name2 const linear
ldaResubCM =
grpOrder =
したがって、65 個のインスタンス、8 個の属性、および 4 個のクラス (1、2、3、4) があります。したがって、これらの結果を解釈する方法がわかりません。何か助けはありますか?
r - R で頻度リストのトピック モデルを作成する
このtopicmodels
パッケージを使用して、R で LDA モデルを作成しています。
しかし、それがドキュメントを受け入れる唯一の方法は、実際の文字通りのドキュメントとしてです。周波数のマップを提供する方法があるかどうか疑問に思っていました
これは明らかにRの「マップ」ではありませんが、単語の頻度からトピックモデルを作成できるデータ構造(データフレーム、テーブル、ベクトルのリスト)表現ですか?
これが必要な理由は、トピック モデルが「ドキュメント」や「単語」自体で作成されているのではなく、画像の類似した機能であり、長い形式の表現にはあまりにも多くのスペースが必要だからです。
python - トピックの分布: Python で LDA を実行した後、どのドキュメントがどのトピックに属しているかを確認する方法
gensim から LDA コードを実行することができ、それぞれのキーワードでトップ 10 のトピックを取得しました。
ここで、さらに一歩進んで、LDA アルゴがどのドキュメントを各トピックにクラスター化するかを確認することで、LDA アルゴがどれほど正確かを確認したいと思います。これはgensim LDAで可能ですか?
基本的に私はこのようなことをしたいのですが、Pythonでgensimを使用しています。
トピックモデルを使用した LDA で、さまざまなドキュメントがどのトピックに属しているかを確認するにはどうすればよいですか?
machine-learning - 潜在的セマンティック分析 (LSA) の特異値分解 (SVD) によって生成された行列の意味/含意
SVD は LSA で潜在的な意味情報を取得するために使用されます。SVD 行列の解釈について混乱しています。
最初に文書用語マトリックスを作成します。次に、SVD を使用して 3 つの行列に分解します。
例えば:
doc-term 行列 M1 は M x N です。ここで、
そして、M1 は次のように分解されました。
私は以下のような解釈を見ます:
M2の k列は、同様のセマンティクスのカテゴリを表します。M4の k行はトピックを表します。
私の質問は次のとおりです。
k が上記のように解釈されるのはなぜですか? セマンティクスとトピックが似ていることをどのように確認できますか?
同様のセマンティクスがトピックに等しいのはなぜですか?
M2 と M4 で k の解釈が異なる理由
M3をどう解釈する?
私は本当に混乱しています。解釈は完全に恣意的なようです。それが潜在的な意味ですか?
r - lda.collapsed.gibbs.sampler の初期値が R で機能しない
私は R がまったく初めてで、現在tmおよびldaパッケージを使用してログを分析しています。
lda.collapsed.gibbs.samplerは「初期」パラメーターを取ることができ、ドキュメントには次のように記載されています。
イニシャル
単語の最初のトピック割り当てのリスト。戻り値の割り当てフィールドと同じ形式にする必要があります。このフィールドが NULL の場合、サンプラーはランダムな割り当てで初期化されます。
しかし、以前の result$assignments を初期パラメーターとして繰り返し渡そうとすると、エラーが発生します。
それを取り除き、実際にリストを使用する方法がわかりません。私が望むのは、手順を実行してその結果を確認することで収束の尺度を得ることです。そのため、単純にiをより大きな数として置くことはできません。
前もって感謝します!:)
nlp - テキスト クラスタリングの LDA (Latent Dirichlet Allocation) アルゴリズムでトピックの数を決定する方法は?
LDA アルゴリズムを使用して、多くのドキュメントをさまざまなトピックにクラスター化しています。LDA アルゴリズムには、入力パラメーター (トピックの数) が必要です。どうすればこれを判断できますか?
Reuter コーパスを使用してソリューションのベンチマークを行っています。また、ロイターコーパスにはトピック番号が用意されています。Reuter テキストをクラスタリングする場合、同じトピック番号を入力する必要がありますか? クラスタリングの結果をロイターの結果と比較しますか?
しかし、本番環境では、トピックに基づいて実際にクラスター化する前に、どうすればトピックの数を知ることができますか? 鶏卵問題のようなものです。