EC2 で Mahout の LDA を実行しています (Whirr を使用)。あなたが実際に使うことができた最大の語彙は何ですか? Hadoop/EC2 の設定をいくつか教えていただけますか?
理想的には、20M トークンの辞書を使用して、3M ドキュメント (1B トークン) のコーパスで LDA を実行したいと考えています。
私は LDA の他の map-reduce 実装 (hadoop-lda、LDA 氏) を試しましたが、あまりスケールアップできませんでした (私が間違っていることを証明してください!)