問題タブ [perplexity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
321 参照

text - perplexity 関数を実行して LDA モデルを評価しているときにエラーが発生する

トピック モデリング (LDA) を評価しようとしています。perplexity 関数を次のように実行中にエラーが発生しました: (関数 (classes, fdef, mtable) のエラー: 署名 '"LDA_Gibbs", "numeric"' の関数 'perplexity' の継承されたメソッドが見つかりません。誰かがこれを解決するのを手伝ってください.

0 投票する
2 に答える
3137 参照

python - Mallet Perplexity を使用した Gensim トピック モデリング

私は、ハーバード図書館の本のタイトルと主題をモデル化するトピックです。

Gensim Mallet Wrapper を使用して、Mallet の LDA でモデル化します。モデルの良さを確認するために Coherence と Perplexity の値を取得しようとすると、以下の例外で perplexity の計算に失敗します。Mallet の代わりに Gensim の組み込み LDA モデルを使用すると、同じエラーは発生しません。私のコーパスには、長さが最大 ​​50 語、平均 20 語の 700 万以上のドキュメントが含まれています。したがって、ドキュメントは短いものです。

以下は私のコードの関連部分です:

困惑: -47.91929228302663

コヒーレンス スコア: 0.28852857563541856

LDA は問題なくスコアを出しました。今、私はMALLETで同じ言葉の袋をモデル化しています

コヒーレンス スコア: 0.5994123896865993

次に、Perplexity 値を要求すると、警告と NaN 値を下回ります。

/app/app-py3/lib/python3.5/site-packages/gensim/models/ldamodel.py:1108: RuntimeWarning: 乗算スコアで無効な値が検出されました += np.sum((self.eta - _lambda) * Elogbeta )

困惑:ナン

/app/app-py3/lib/python3.5/site-packages/gensim/models/ldamodel.py:1109: RuntimeWarning: 減算スコアで無効な値が検出されました += np.sum(gammaln(_lambda) - gammaln(self.イータ))

これは非常に Gensim 固有の質問であり、この関数のより深い知識が必要であることを認識しています: gensim.models.wrappers.ldamalet.malletmodel2ldamodel(ldamalet)

したがって、警告と Gensim ドメインに関するコメントをいただければ幸いです。

0 投票する
1 に答える
521 参照

r - R の曲線の肘/膝

私はこのデータ処理を持っています:

このような質問がたくさんあることは承知していますが、自分の状況に対する正確な答えを見つけることができませんでした. 上の図では、潜在的ディリクレ配分モデルの 3 から 25 トピック番号までの perplexity 計算を示しています。それらの中で最も十分な値を取得したい、つまり、結果が次のようになる単純な数値ベクトルとしてのみ考慮される可能性のある値について、肘または膝を見つけたいと考えています。

これはプロットがどのように見えるかです

ひじは 13 か 16 になると思いますが、完全にはわかりません。結果として正確な数が必要です。この論文で、f''(x) / (1+f'(x)^2)^1.5 が膝の公式であることが分かりました。

私はこのことを完全に理解することはできません。結果として困惑に応じて正確な理想的なトピック数を取得する方法を誰かが共有したいと思いますか?