1

スタンフォードトピックモデリングツールキット(Twitterユーザーが共有)の19,500件の記事のコーパスで特定された30のトピック(約4時間かかりました)が互いに非常に類似している理由として考えられるものは何ですか?それらはほとんど同じ用語を持っており、頻度=>基本的に、私はただ1つのトピックを持っています:)

識別されたトピックはここで見つけることができます

ストップワードの削除、空白の折りたたみ、すべての小文字化など、段階を学習して推測する前に、テキストドキュメントの標準的な準備を行います。

私のパラメータのいくつか:

  • numTopics = 30
  • TermMinimumDocumentCountFilter =(10)〜>//<10ドキュメントで発生する用語をフィルタリングする
  • TermDynamicStopListFilter(30)〜>//30の最も一般的な用語を除外します
  • DocumentMinimumLengthFilter(10)//10語以上のドキュメントのみを取得
  • topicSmoothing = SymmetricDirichletParams(0.01)
  • termSmoothing = SymmetricDirichletParams(0.01)
  • maxIterations = 10
4

1 に答える 1

1

あなたの方法論に欠陥があるように見えるからです。生の単語数には、どのようなトピックがマイニングされることを意図しているかにかかわらず、言語の特性である固有の偏りがあります。

たとえば、トピックの類似性には影響しないが、結果にバイアスをかけている単語は次のとおりです。

very
well
good

他の詳細への言及を扱うため、意図的にあいまいな他の単語

data
media
web
users
those

他の単語は単に一般的に使用される動詞または副詞ですが、

need
going
think
know
want

その他は既知の業界ブランド名です

apple
twitter

単語の頻度が特定のトピックにマッピングされるという検証可能なモデルを構築できるようになるまでは、データを収集し、(反仮説を反証するのではなく) 手を振って、元の前提が正しいという結論に飛びつくだけです。

単語の代わりにトピックを捉えるように分類を再構築し、トピック間の距離を説明するモデルを構築し、提供された 30 のトピックの中で、実際には 29 (またはそれ以下) のトピックしかないことを示します。自立します。

なぜなら、ユーザーからデータを収集することはすべて非常に良いことですが、データの必要性は、何が求められているかを知ることに関連する優れたデータの必要性に次ぐものだからです。(この文は意図的に作成されており、Standford Topic Modeling Toolkit の「単語数」が多いですが、類似のトピックではない可能性があります)

于 2012-04-18T15:57:44.560 に答える