6

潜在的ディリクレ配分法 (LDA) について学習しようとしています。私は機械学習と確率論の基本的な知識を持っており、このブログ投稿http://goo.gl/ccPvEに基づいて、LDA の背後にある直感を開発することができました。しかし、そこに含まれるさまざまな計算については、まだ完全には理解できていません。非常に小さなコーパス (たとえば 3 ~ 5 文と 2 ~ 3 トピック) を使用した計算を誰かに見せてもらえないかと思っています。

4

2 に答える 2

7

Edwin Chen (Twitter で働いている) は、彼のブログに例を示しています。5 つの文、2 つのトピック:

  • 私はブロッコリーとバナナを食べるのが好きです。
  • 朝食にバナナとほうれん草のスムージーを食べました。
  • チンチラと子猫がかわいい。
  • 私の姉は昨日子猫を引き取りました。
  • ブロッコリーをむしゃむしゃ食べているこのかわいいハムスターを見てください。

それから彼はいくつかの「計算」を行います

  • 文 1 と文 2: 100% トピック A
  • 文 3 と 4: 100% トピック B
  • 文 5: トピック A が 60%、トピック B が 40%

そして、トピックを推測してください:

  • トピック A: ブロッコリー 30%、バナナ 15%、朝食 10%、むしゃむしゃ 10%、…
    • その時点で、トピック A は食べ物に関するものであると解釈できます。
  • トピック B: 20% チンチラ、20% 子猫、20% かわいい、15% ハムスター、…
    • この時点で、トピック B はかわいい動物に関するものであると解釈できます。

あなたの質問は、彼がどのようにしてそれらの数字を思いついたのですか? 次の文で「情報」を含む単語はどれですか。

  • ブロッコリー、バナナ、スムージー、朝食、むしゃむしゃ食べる
  • チンチラ、子猫、かわいい、採用、ハムスター

それでは、各トピックから単語を取得して、文ごとに行ってみましょう。

  • 食べ物 3、かわいい 0 -->食べ物
  • 食べ物 5 かわいい 0 -->食べ物
  • 食べ物 0, かわいい 3 -->かわいい
  • 食べ物 0, かわいい 2 -->かわいい
  • 食べ物 2、かわいい 2 -->食べ物50% +かわいい50%

私の数値は、チェンの数値とは少し異なります。たぶん、彼は「ブロッコリーのピース」に「ピース」という言葉を食べ物の数として含めているのかもしれません.


頭の中で 2 つの計算を行いました。

  • 文を見て、最初に2つのトピックを思いつく。LDA は、各文をトピックの「混合」と見なし、各トピックのパラメータを推測することでこれを行います。
  • どの単語が重要かを判断します。LDA はこれを理解するために「term-frequency/inverse-document-frequency」を使用します。
于 2012-12-14T04:03:25.680 に答える