問題タブ [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R トピック モデリング - lda コマンド 'lexicalize' が予期しない結果をもたらす
R の「lda」パッケージを使用して、コーパスのトピック モデル分析を実行しています (「corpusB」と呼びましょう)。最初にコマンド「lexicalize」を使用して、分析用のコーパスを準備しています。このコマンドは、用語とドキュメントのマトリックスを返し、事前に指定されていない場合は、コーパスに現れる一意のトークンを含む語彙を返します。
研究目的で、別のコーパスから推測された語彙 (「corpusA」と呼びましょう) を使用してコーパスを語彙化したいのですが、これは簡単に実行できるはずです。しかし、それは機能していません。コードのサンプルを次に示します。
なぜnullの結果が得られるのか考えていますか? 奇妙なことに、インポートされたコーパスではなく単純な文字ベクトルを使用している場合、コマンドは問題なく機能します。
役に立つかもしれないいくつかの情報:
1) 私が興味を持っているコーパス (corpusB) には 700MB のテキストが含まれており、かなりの量のデータです。
2) 両方のコーパス (B と A) は、'tm' パッケージを使用して R にインポートされます。語彙化の前に、'tm' を使用して句読点、数字、ストップワードを削除し、空白と小文字を取り除きます。
どんな助けでも大歓迎です!
r - R lda パッケージからの lda.collapsed.gibbs.sampler コマンドの出力
lda.collapsed.gibbs.sampler コマンドからの出力のこの部分がわかりません。私が理解できないのは、異なるトピックの同じ単語の数が異なるのはなぜですか? たとえば、「テスト」という単語の場合、トピック 8 が 37 個のトピックを取得するときに、2 番目のトピックに 4 個あるのはなぜですか。異なるトピックの同じ単語の数は、同じ整数または 0 であってはなりませんか?
それとも、何か誤解していて、これらの数字はトピックの単語数を表していませんか?
これが私が実行するコードです。
PS。長い投稿と私の下手な英語で申し訳ありません。
hadoop - apache mahout を使用して LDA を実装するにはどうすればよいですか?
CSV形式で以下のようなデータセットを持っています。
mahout LDA(Latent Dirichlet Allocation)アルゴリズムを使用して、タグ間の相関関係を見つける必要があります。Apache Mahout を使用してそれを行う方法を見つけるのを手伝ってくれませんか。
私はまた、正確にどの入力フォーマット mahout が望んでいるのか混乱していますか?
誰かが魔法使いの初心者に良いものを共有してくれると助かります
machine-learning - (LDA、HDP)でトピックを自動的に作成しますか?
私は分類のために CV (履歴書) に取り組んでおり、LDA を使用しています。CV(マーケティング、コンピューター、コミュニケーション)の3つの異なる概念を設定(N = 3)で行った結果は良好でした。ここで問題は、財務の概念 (または他の概念) を持つ新しい CV の新しいトピックを (もちろん、既存のトピックに追加することによって) どうすれば作成できるかということです。
実際、私の目標は、毎回新しいトピックを生成して、新しいコンセプトを取得することです。
私は毎日異なるコンセプトで異なる CV を取得しており、分類を自動化するのにどのアルゴリズム (HDP、On_Line LDA) が役立つかについて疑問があります。
r - ドキュメント用語マトリックスの空白エントリをクリアするための回避策は?
トピック モデルを生成するために過去に使用した r コードがいくつかあります。少し関係のない問題を修正することを期待して、すべての r パッケージを更新するまで、すべてが正常に機能していました。現在、以前は機能していたコードが壊れているようで、どうすればよいかわかりません。
この投稿を読ん で、最初にこれを設定するのに非常に役立つことがわかりました。まばらな用語が削除された後に空白行を消去して、後続の分析を設定する方法について説明します。現在のパッケージで同じコードを入力すると、次のようになります。
問題を特定し、機能するソリューションにロールバックする方法を知っている人はいますか? ありがとう。
python - RPy2 を使用したトピック モデリング
RPy を使用して Python で LDA を使用したいと考えています。私はすでにgensim
パッケージを使用してこれを試しましたが、まだ試してみたいと思っRPy2
ています.
RI を使用している間は、次のコードを使用します。
上記のコードを RPy2 の Python コードに変換したいと思います。私はまだこれを試しました:
以下は DEBUG ログです。
R コードを Python の RPy2 コードに変換するにはどうすればよいですか? 助けてください!
machine-learning - ディリクレ分布が他の何かではなくトピックを記述していることをどのように知ることができますか?
ディリクレ分布は、ドキュメント モデリングで使用されます。
この記事から次のことを読みました。
さまざまなディリクレ分布を使用して、さまざまな作成者によるドキュメントやさまざまなトピックに関するドキュメントをモデル化できます。
では、それが別の著者についてのモデリングなのか、それとも別のトピックに関するモデリングなのか、どうすればわかるのでしょうか? ドキュメント クラスタリング タスクでは、クラスタリング結果のセマンティックが直接決定されるため、これは重要です。
また、モデリングの可能な側面を著者やトピックだけに限定するのは主観的すぎると感じました。特定の側面を支持する強力な証拠はないように思われるため、他の潜在的/潜在的な側面である可能性があります.
誰かがこれに光を当てることができますか?