構造化されていない短いドキュメント内のトピックスポッティングに最適なモデルは何ですか? SMS または Twitter メッセージ?潜在的ディリクレ配分?
3 に答える
LDAはトピックモデリングに利用できる最も強力なモデルの1つですが、Twitterやマイクロブログの投稿などの非常に短いテキストに適用するには、追加の作業が必要になる場合があります。この論文の著者は、 LDAと代替モデルについて議論し、トピックモデルを実行する前に複数の投稿を集約することを推奨しています。
[用語に注意してください:「トピックスポッティング」は、実際には教師ありドキュメント分類の古い同義語です。]
短いテキスト (ツイートなど) に LDA などのトピック モデルを適用することは、データがまばらであり、そのようなテキストではコンテキストが限られているため、より困難です。1 つのアプローチは、LDA をトレーニングする前に、短いテキストを長い疑似ドキュメントに結合することです。もう 1 つの簡単な方法は、ドキュメントごとに 1 つのトピックしかないと仮定することです。
ドキュメントごとに 1 つのトピックのDirichlet Multinomial Mixture (DMM) モデル (ユニグラムの混合) は、短いテキストまたはツイートのトピックをモデル化する場合、LDA トピック モデルよりも優れています。jLDADMMパッケージには、LDA モデルと DMM モデルの両方の実装があります。jLDADMM は、これらのトピック モデルを比較するためのドキュメント クラスタリング評価も提供します。
すべてはデータに依存していると思います。したがって、有用なフレーズやトピックを検出するために、純粋な TFIDF、LSI、LDA、kmeans、階層的クラスタリングも試してください。