潜在的ディリクレ配分法 (LDA) について学習しようとしています。私は機械学習と確率論の基本的な知識を持っており、このブログ投稿http://goo.gl/ccPvEに基づいて、LDA の背後にある直感を開発することができました。しかし、そこに含まれるさまざまな計算については、まだ完全には理解できていません。非常に小さなコーパス (たとえば 3 ~ 5 文と 2 ~ 3 トピック) を使用した計算を誰かに見せてもらえないかと思っています。
5704 次
2 に答える
7
Edwin Chen (Twitter で働いている) は、彼のブログに例を示しています。5 つの文、2 つのトピック:
- 私はブロッコリーとバナナを食べるのが好きです。
- 朝食にバナナとほうれん草のスムージーを食べました。
- チンチラと子猫がかわいい。
- 私の姉は昨日子猫を引き取りました。
- ブロッコリーをむしゃむしゃ食べているこのかわいいハムスターを見てください。
それから彼はいくつかの「計算」を行います
- 文 1 と文 2: 100% トピック A
- 文 3 と 4: 100% トピック B
- 文 5: トピック A が 60%、トピック B が 40%
そして、トピックを推測してください:
- トピック A: ブロッコリー 30%、バナナ 15%、朝食 10%、むしゃむしゃ 10%、…
- その時点で、トピック A は食べ物に関するものであると解釈できます。
- トピック B: 20% チンチラ、20% 子猫、20% かわいい、15% ハムスター、…
- この時点で、トピック B はかわいい動物に関するものであると解釈できます。
あなたの質問は、彼がどのようにしてそれらの数字を思いついたのですか? 次の文で「情報」を含む単語はどれですか。
- ブロッコリー、バナナ、スムージー、朝食、むしゃむしゃ食べる
- チンチラ、子猫、かわいい、採用、ハムスター
それでは、各トピックから単語を取得して、文ごとに行ってみましょう。
- 食べ物 3、かわいい 0 -->食べ物
- 食べ物 5 かわいい 0 -->食べ物
- 食べ物 0, かわいい 3 -->かわいい
- 食べ物 0, かわいい 2 -->かわいい
- 食べ物 2、かわいい 2 -->食べ物50% +かわいい50%
私の数値は、チェンの数値とは少し異なります。たぶん、彼は「ブロッコリーのピース」に「ピース」という言葉を食べ物の数として含めているのかもしれません.
頭の中で 2 つの計算を行いました。
- 文を見て、最初に2つのトピックを思いつく。LDA は、各文をトピックの「混合」と見なし、各トピックのパラメータを推測することでこれを行います。
- どの単語が重要かを判断します。LDA はこれを理解するために「term-frequency/inverse-document-frequency」を使用します。
于 2012-12-14T04:03:25.680 に答える