問題タブ [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 潜在的ディリクレ割り当て(LDA)の実装
Win32プラットフォーム用のLDAアルゴリズムの実装(ライブラリまたはアプリケーションに関係なく)が存在するかどうか誰かが知っていますか?たぶんC/C ++またはコンパイル可能な他の言語で?
nlp - 潜在ディリクレ配分と文書クラスタリングの関係
潜在的ディリクレ配分 (LDA) とドキュメント クラスタリングの一般的なタスクとの関係を明らかにしたいと思います。
LDA 分析は、各ドキュメントのトピックの比率を出力する傾向があります。私の理解が正しければ、これはドキュメント クラスタリングの直接の結果ではありません。ただし、この確率比率を各ドキュメントの特徴表現として扱うことができます。その後、LDA 分析によって生成された機能構成に基づいて、他の確立されたクラスタリング方法を呼び出すことができます。
私の理解は正しいですか?ありがとう。
nlp - Stanford Topic Modeling Toolbox でのラベル付き LDA 推論
LabeledLDA を行うために Stanford Topic Modeling Toolbox v.0.3 を使用しています。提供されたドキュメント( example-6-llda-learn.scala )を使用して、LabeledLDA モデルをトレーニングすることができました。新しいデータセットのラベルを予測するにはどうすればよいですか?
新しいデータセットの推論にexample-3-lda-infer.scalaに似たコードを使用しようとしましたが、成功しませんでした。誰でもこの問題で私を助けてもらえますか?
編集 これは私が推論に使用するコードですが、機能していません:
このコードを実行するとjava -Xmx3g -jar tmt-0.3.3.jar infer_llda.scala
、次のエラーが発生します。
@Skarab の助けを借りて、ラベル付き LDA の学習と推論のソリューションを以下に示します。
python - pythonモジュールがインストールされ認識されましたが、Ubuntuのコードまたはpython 2.7.1インタープリターにインポートできません
Python Cモジュールを起動して実行しようとして立ち往生しています。Hereから deltaLDA モジュールをインストールしています。REAMDE ファイルで指定されている指示に従いました。いつものように、私は次のように書きました。
すべてが期待どおりに進んだと思います。次の出力が得られます。
しかし、deltaLDA モジュールをインポートしようとすると、次のエラーが発生します。
インストールされているモジュールを help('modules') または pip freeze コマンドで確認すると、両方のリストで deltaLDA を見つけることができますが、インポートできません。助けていただければ幸いです。
ありがとう!
更新:
sys.path も確認しましたが、その'/usr/local/lib/python2.7/dist-packages'
上にあります。* を deltaLDA からインポートしようとするとfrom deltaLDA import *
、同じエラーが発生します。インタープリターでもdir(deltaLDA)
同じ「モジュール名なし」エラーを取得しようとしました。deltaLDA モジュールに問題があるのではないでしょうか? 誰かがそれをインストールしようとすることができますか?
修理済み
dist-packages の .so ファイルと Egg-info ファイルのパーミッションを確認しました。それらは読めませんでした。理由はわかりません。sudo chmod 777 ファイルを実行したところ、動作するようになりました!.
hadoop - MahoutLDAはFileNotFound例外を出します
私はこのようにここに述べられているように私の用語ベクトルを作成しました:
それから私は走ります
そして私は得る:
MAHOUT-JOB:/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob:コマンドライン引数:{ --endPhase = 2147483647、-input = / home / ben / Scripts / eipi / termvecs、-maxIter = -1、-numTopics = 2、-numWords = 100、-output = / home / ben / Scripts / eipi / lda_working、-startPhase = 0、-tempDir = temp、-topicSmoothing = -1.0} 11/09/04 16:29:00 INFO lda.LDADriver:LDA Iteration 1 11/09/04 16:29 :01 INFO input.FileInputFormat:処理する入力パスの合計:4 11/09/04 16:29:01 INFO mapred.JobClient:ステージング領域ファイルのクリーンアップ:/ tmp / hadoop-ben / mapred / staging /ben692167368/。 staging /job_local_0001スレッド"main"の例外java.io.FileNotFoundException:ファイルファイル:/ home / ben / Scripts / eipi / termvecs / tokenized-documents/dataが存在しません。org.apache.hadoop.fs.RawLocalFileSystemで。
It's right, that file doesn't exist. How am I supposed to create it?
yahoo - ヤフー!LDA 実装に関する質問
全て、
私は一連のドキュメントに対して Y!LDA (https://github.com/shravanmn/Yahoo_LDA) を実行してきましたが、結果は素晴らしく見えます (または、少なくとも私が期待するもの)。次に、結果のトピックを使用して、コーパスに対して逆クエリを実行したいと考えています。learntopics 実行可能ファイルの実行後に生成される 3 つの人間が読めるテキスト ファイルが、このライブラリの最終出力であるかどうかは誰にもわかりませんか? もしそうなら、それはクエリを実行するために解析する必要があるものですか? この時点で少し肩をすくめたままです...
ありがとう、アダム
mahout - Mahout:LDAを使用するためにカスタムドキュメントをSparseVector形式に変換する方法
各行に「\t|\t」で区切られた特定の数の文字列が含まれる一連のドキュメントがあります。各文字列(間にスペースを含めることができます)は、分割できない辞書アイテムです。次に、LDAを使用して、各dictionsr単語(語彙の文字列)に関するこれらのドキュメント間の相関関係を見つける必要があります。
これらのドキュメントをスペアのベクター形式に変換する方法と、LDAを適用する方法を教えてください。
nlp - トピックモデリングのために、1行に1つのドキュメントをBleiのlda-c / dtm形式に変換しますか?
私はいくつかの研究のために潜在的ディリクレ分析を行っていますが、問題が発生し続けています。ほとんどのldaソフトウェアでは、ドキュメントがdoclines形式である必要があります。つまり、CSVまたはその他の区切られたファイルで、各行がドキュメント全体を表します。ただし、Bleiのlda-cおよび動的トピックモデルソフトウェアでは、データが次の形式である必要があります。[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
ここ[M]
で、はドキュメント内の一意の用語の数であり、各用語に関連付けられた[count]は、その用語がドキュメントに出現した回数です。[term_1]
これは、用語のインデックスとなる整数であることに注意してください。文字列ではありません。
この形式にすばやく変換できるユーティリティを知っている人はいますか?ありがとうございました。
nlp - LDA はどのように一貫した結果をもたらしますか?
一般的なトピック モデルである潜在的ディリクレ配分 (LDA) は、コーパスからトピックを抽出するために使用されると、辞書の単語に対してさまざまな確率分布を持つさまざまなトピックを返します。
一方、Latent Semantic Indexing (LSI) は、反復ごとに同じトピックと同じ分布を提供します。
実際、LDA はトピックの抽出に広く使用されています。分類が行われるたびに異なるトピック分布を返す場合、LDA はどのように一貫性を維持しますか?
この簡単な例を考えてみましょう。D がドキュメントを表すドキュメントのサンプルを取得します。
各行はドキュメントを表します。上記のコーパスでは、ドキュメントからトピックを生成するために LDA モデルが使用されています。Gensim は LDA に使用され、選択されたトピック数が 4、パス数が 20 のバッチ LDA が実行されます。
元のコーパスでバッチ LDA が実行され、20 回のパス後に生成されるトピックは次のとおりです。
ここで、同じ元のコーパスに対してバッチ LDA が再度実行され、その場合に生成されるトピックは次のとおりです。
各トピックの単語分布は、両方の場合で同じではありません。実際、単語の分布は決して同じではありません。
では、LSI のようなトピックで同じ単語分布を持たない場合、LDA はどのように効果的に機能するのでしょうか?
algorithm - LDA とトピック モデル
LDA とトピック モデルを数週間勉強しましたが、数学が苦手なため、内部アルゴリズムを完全には理解できませんでした。GibbsLDA 実装を使用し、多くのドキュメントを入力し、トピック番号を 100 に設定しました。各ドキュメントの各トピックのトピック比率を格納する「final.theta」という名前のファイル。この結果は良好です。トピック比率を使用して、他の多くのことを行うことができます。しかし、LDA で Blei の C 言語の実装を試したところ、final.gamma という名前のファイルしか得られませんでしたが、このファイルをトピック プロポーション スタイルに変換する方法がわかりません。誰でも私を助けることができますか?また、LDA モデルには多くの改良版 (CTM、HLDA など) があることを知りました。LDA に似たトピック モデルを見つけることができれば、つまり、大量のドキュメントを入力したときに、ドキュメント内のトピックの割合を直接出力できます。 .