lda - 潜在的ディリクレ配分解の例

Question

潜在的ディリクレ配分法 (LDA) について学習しようとしています。私は機械学習と確率論の基本的な知識を持っており、このブログ投稿http://goo.gl/ccPvEに基づいて、LDA の背後にある直感を開発することができました。しかし、そこに含まれるさまざまな計算については、まだ完全には理解できていません。非常に小さなコーパス (たとえば 3 ～ 5 文と 2 ～ 3 トピック) を使用した計算を誰かに見せてもらえないかと思っています。

score 7 · Accepted Answer

Edwin Chen (Twitter で働いている) は、彼のブログに例を示しています。5 つの文、2 つのトピック:

私はブロッコリーとバナナを食べるのが好きです。
朝食にバナナとほうれん草のスムージーを食べました。
チンチラと子猫がかわいい。
私の姉は昨日子猫を引き取りました。
ブロッコリーをむしゃむしゃ食べているこのかわいいハムスターを見てください。

それから彼はいくつかの「計算」を行います

文 1 と文 2: 100% トピック A
文 3 と 4: 100% トピック B
文 5: トピック A が 60%、トピック B が 40%

そして、トピックを推測してください：

トピック A: ブロッコリー 30%、バナナ 15%、朝食 10%、むしゃむしゃ 10%、…
- その時点で、トピック A は食べ物に関するものであると解釈できます。
トピック B: 20% チンチラ、20% 子猫、20% かわいい、15% ハムスター、…
- この時点で、トピック B はかわいい動物に関するものであると解釈できます。

あなたの質問は、彼がどのようにしてそれらの数字を思いついたのですか? 次の文で「情報」を含む単語はどれですか。

ブロッコリー、バナナ、スムージー、朝食、むしゃむしゃ食べる
チンチラ、子猫、かわいい、採用、ハムスター

それでは、各トピックから単語を取得して、文ごとに行ってみましょう。

食べ物 3、かわいい 0 -->食べ物
食べ物 5 かわいい 0 -->食べ物
食べ物 0, かわいい 3 -->かわいい
食べ物 0, かわいい 2 -->かわいい
食べ物 2、かわいい 2 -->食べ物50% +かわいい50%

私の数値は、チェンの数値とは少し異なります。たぶん、彼は「ブロッコリーのピース」に「ピース」という言葉を食べ物の数として含めているのかもしれません.

頭の中で 2 つの計算を行いました。

文を見て、最初に2つのトピックを思いつく。LDA は、各文をトピックの「混合」と見なし、各トピックのパラメータを推測することでこれを行います。
どの単語が重要かを判断します。LDA はこれを理解するために「term-frequency/inverse-document-frequency」を使用します。

lda - 潜在的ディリクレ配分解の例

2 に答える 2

Related

Reference