0

StackExchange の投稿でタグ予測とキーワード抽出を行っています。タイトル、本文、タグで構成される約 36,000 件の投稿があります。ノイズの多い要素をフィルタリングして処理します。この後、ここで取得したラベル付き潜在ディリクレ配分法 (LLDA) を実行します。

出力を見ると、トピックとキーワードの割り当ての前半の大部分はかなり良好です。例:

Topic 0: Hardware
 hardware 0.01417490938078998
 apple  0.007714736647543383
 macbook    0.004179344296774437
 mac    0.003794235182959134

Topic 1: Mac
 mac    0.09533364420104305
 os 0.02075003721054881
 mini   0.00682593613383348
 macs   0.00435445224274711

Topic 2: PowerPC
 powerpc    0.010548590021130589
 ppc    0.007893573342376935
 mac    0.0039821054483700795
 ibook  0.003731934198917873
 os 0.003471650527888505

ただし、出力ファイルの終わりに近づくほど、トピックとキーワードの割り当ては完全に奇妙になります。

Topic 976: Shopping-recommendation
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 977: PCI-Card
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 978: Tmux
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 979:
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

誰かがなぜ私が最終的にそのような間違った割り当てを受けるのか説明してもらえますか? また、値が非常に低いのはなぜですか?

約 36,000 件の投稿がある前に述べたように、これらは LLDA を実行するための値です。

option.est = true;
option.alpha = 50/920 // 920 is number of topics
option.beta = 0.1;
option.niters = 3000;
option.twords = 15;
option.nburnin = 350;
option.samplingLag = 256;

以前の値に関するドキュメントはほとんどまたはまったく見つからなかったので、試行錯誤の結果、これらの値が得られたものの中で最も適していることがわかりました。ただし、より理解のある人が私に説明したり、どの値が最適かを提案したりできるでしょうか?

4

0 に答える 0