StackExchange の投稿でタグ予測とキーワード抽出を行っています。タイトル、本文、タグで構成される約 36,000 件の投稿があります。ノイズの多い要素をフィルタリングして処理します。この後、ここで取得したラベル付き潜在ディリクレ配分法 (LLDA) を実行します。
出力を見ると、トピックとキーワードの割り当ての前半の大部分はかなり良好です。例:
Topic 0: Hardware
hardware 0.01417490938078998
apple 0.007714736647543383
macbook 0.004179344296774437
mac 0.003794235182959134
Topic 1: Mac
mac 0.09533364420104305
os 0.02075003721054881
mini 0.00682593613383348
macs 0.00435445224274711
Topic 2: PowerPC
powerpc 0.010548590021130589
ppc 0.007893573342376935
mac 0.0039821054483700795
ibook 0.003731934198917873
os 0.003471650527888505
ただし、出力ファイルの終わりに近づくほど、トピックとキーワードの割り当ては完全に奇妙になります。
Topic 976: Shopping-recommendation
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
Topic 977: PCI-Card
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
Topic 978: Tmux
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
Topic 979:
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
誰かがなぜ私が最終的にそのような間違った割り当てを受けるのか説明してもらえますか? また、値が非常に低いのはなぜですか?
約 36,000 件の投稿がある前に述べたように、これらは LLDA を実行するための値です。
option.est = true;
option.alpha = 50/920 // 920 is number of topics
option.beta = 0.1;
option.niters = 3000;
option.twords = 15;
option.nburnin = 350;
option.samplingLag = 256;
以前の値に関するドキュメントはほとんどまたはまったく見つからなかったので、試行錯誤の結果、これらの値が得られたものの中で最も適していることがわかりました。ただし、より理解のある人が私に説明したり、どの値が最適かを提案したりできるでしょうか?