問題タブ [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
178 参照

dictionary - LDA の辞書を作成する方法

私は潜在的な Dirchlet Allocation に 2 週間取り組んでおり、それを試すために辞書とトレーニング ファイルを作成しようとしています。Blei の train ファイルを使用して、Matlab と gcc で既に試しましたが、辞書の作成方法がわかりません。誰かが私を助けることができますか?ありがとうアンドレア

0 投票する
0 に答える
97 参照

r - p>n行列のパッケージ「MASS」の線形判別分析の計算

Rパッケージ「MASS」では、関数「lda」を使用しています。この関数が観測よりも多くの変数を持つ行列を処理する特定の方法に関するドキュメントを見つけようとしています (この場合、共分散行列のモーメント推定を使用しています)。コードを見ると、共分散行列の特異値分解を利用しているように見えますが、これを行う正確な方法はわかりません。誰かがこの方法の参照を知っていれば、それは非常に高く評価されます。

0 投票する
2 に答える
3027 参照

python - gensim コーパスをロードする際の unpickling エラーを解決するには? - パイソン

シリアル化されたコーパスをに保存できますfoobar.mmが、読み込もうとするとUnpicklingError. ただし、辞書のロードは問題ないようです。誰でもこれを解決する方法を知っていますか? そして、なぜこれが起こるのですか?

0 投票する
1 に答える
4245 参照

python - gensim LDA で scikit-learn TfIdf を使用する

私はいくつかのテキストデータをモデル化するために scikit Learn でさまざまなバージョンの TFIDF を使用しました。

結果のデータ X は次の形式になります。

疎行列の次元を減らす方法として、LDA を試してみたかったのです。NumPy スパース行列 X を gensim LDA モデルにフィードする簡単な方法はありますか?

私は scikit を無視して、gensim チュートリアルの概要に沿って進むことができますが、scikit ベクトライザーとそのすべてのパラメーターのシンプルさが気に入っています。

0 投票する
1 に答える
5741 参照

lda - Gensim でのトピック モデルの評価

Gensimを使用して LDA トピック モデリングを実験してきました。Gensim にはトピック モデル評価機能が見つからなかったようです。これは、提示された評価テキストに関するトピック モデルの難しさを報告できるため、その後の LDA パラメータ (トピック数など) の微調整が容易になります。Gensimでトピックモデルの評価を実行する方法について、誰かが光を当てることができれば幸いです。この質問はmetaoptimizeにも投稿されています。

0 投票する
2 に答える
1139 参照

text-mining - 潜在的ディリクレ配分 (LDA) のドキュメント数

この質問をご覧いただきありがとうございます。私は最近、Web からいくつかのテキストをスクレイピングし、出力を約 300 ページの .txt ファイルとして保存しました。トピックを作成するために LDA を実装しようとしていますが、その技術的な側面に精通しています。

ただし、私の質問は、LDA が 1 つのファイルを使用することと複数のファイルを使用することのどちらが重要かということです (つまり、200 通の電子メールを調査している場合、トークン化して、ストップワードと句読点を削除し、大きなファイルをステム処理してから、各電子メールをファイルとして保存する必要がありますか?) LDA を実装する前に .txt ファイルを分離するか、1 つのファイルですべてを実行できますか?

私が現在直面している問題は、すべてを個別の .txt ファイルに分割すると、ドキュメントの前処理に時間がかかることです。助言がありますか?どうもありがとう。

0 投票する
2 に答える
5070 参照

r - R (topicmodels、lda、tm) でトピック モデリングのデータを準備するにはどうすればよいですか?

Rで調査しようとしている長いtxtファイル(ファイルあたり約20.000〜30.000ワード)のコーパス(622ドキュメント)があります.tmパッケージを使用して基本的なテキストマイニングを行い、トピックを掘り下げたいと思います現在モデリング中。ただし、これには非常に慣れていないため、データ準備の基本にすでに苦労しています。私が現在使用しているファイルのサンプルは、http ://s000.tinyupload.com/?file_id=46554569218218543610 で入手できます。

  1. これらの長いドキュメントをトピック モデリング ツールに入力するだけでは意味がないと思います。したがって、それらを段落に分割したいと思います(または、データに冗長な段落区切りとOCRエラーがたくさんあるため、おそらく300〜500語のセット)。これを VCorpus 内で行いますか、それとも実際にソース ファイルを (シェル スクリプトなどで) 分割する必要がありますか? 提案や経験はありますか?

  2. テキストは OCR された雑誌の記事から来ているので、ドキュメントを分割する場合、これらの段落にメタデータ タグを追加して、元の号 (基本的には元のファイル名のみ) を示すメタデータ タグを追加する必要があると考えています。 ? これを簡単に行う方法はありますか?

  3. 一般的に言えば、R でのトピック モデリングの実践的な入門書を推奨できる人はいますか? 実際、3 年生のように私を手で連れて行くチュートリアルは素晴らしいでしょう。「topicmodels」と「lda」のドキュメントを使用していますが、初心者にとって学習曲線はかなり急です。 編集:明確にするために、私はトピック モデリングの一般的な入門書の多くを既に読みました (例: Scott Weingart と歴史家のための MALLET チュートリアル)。R のプロセスに固有の何かを考えていました。

これらの質問が完全に冗長でないことを願っています。読んでくれてありがとう!

0 投票する
1 に答える
1455 参照

matlab - LDA と次元削減

オブジェクトごとに 84 個の特徴を持つ約 300 個のオブジェクトで構成されるデータセットがあります。オブジェクトはすでに 2 つのクラスに分けられています。PCA を使用すると、次元を約 24 に減らすことができます。元のデータの分散の約 96% をカバーする 3 つの主成分を使用しています。私が抱えている問題は、PCAがクラスを互いに分離する機能を気にしないことです。これら2つのクラスの識別関数を見つけるために、特徴空間を削減するためのPCAとLDAを組み合わせる方法はありますか? または、LDA を使用して、3 次元空間で 2 つのクラスを分離する特徴を最良の方法で見つける方法はありますか?

この論文を見つけたのでちょっといらいらしていますが、よくわかりません。http://faculty.ist.psu.edu/jessieli/Publications/ecmlpkdd11_qgu.pdf

前もって感謝します。