amazon-ec2 - Mahout LDA: 実際に使用できる最大の辞書サイズは?

Question

EC2 で Mahout の LDA を実行しています (Whirr を使用)。あなたが実際に使うことができた最大の語彙は何ですか? Hadoop/EC2 の設定をいくつか教えていただけますか?

理想的には、20M トークンの辞書を使用して、3M ドキュメント (1B トークン) のコーパスで LDA を実行したいと考えています。

私は LDA の他の map-reduce 実装 (hadoop-lda、LDA 氏) を試しましたが、あまりスケールアップできませんでした (私が間違っていることを証明してください!)

score 0 · Accepted Answer

このような質問に最適な場所は、Mahout メーリングリスト [1] です。私は LDA の実装を自分で試したことはありませんが、Twitter から提供されたものなので、規模のニーズに合うはずだと思います。

ただし、メーリングリストの人々がより良い回答を提供できると確信しています。

1 に答える 1