スタンフォードトピックモデリングツールキット(Twitterユーザーが共有)の19,500件の記事のコーパスで特定された30のトピック(約4時間かかりました)が互いに非常に類似している理由として考えられるものは何ですか?それらはほとんど同じ用語を持っており、頻度=>基本的に、私はただ1つのトピックを持っています:)
識別されたトピックはここで見つけることができます
ストップワードの削除、空白の折りたたみ、すべての小文字化など、段階を学習して推測する前に、テキストドキュメントの標準的な準備を行います。
私のパラメータのいくつか:
- numTopics = 30
- TermMinimumDocumentCountFilter =(10)〜>//<10ドキュメントで発生する用語をフィルタリングする
- TermDynamicStopListFilter(30)〜>//30の最も一般的な用語を除外します
- DocumentMinimumLengthFilter(10)//10語以上のドキュメントのみを取得
- topicSmoothing = SymmetricDirichletParams(0.01)
- termSmoothing = SymmetricDirichletParams(0.01)
- maxIterations = 10