nlp - 潜在的ディリクレ配分 (MALLET) に関する質問

Question

正直なところ、私は LDA に詳しくありませんが、プロジェクトの 1 つで MALLET のトピックモデリングを使用する必要があります。

私の質問は: トピックモデルのトレーニングデータとして特定のタイムスタンプ内の一連のドキュメントが与えられた場合、ドキュメント + または - トレーニングデータのタイムスタンプについて、トピックの傾向を追跡するために (推論を使用して) モデルを使用することはどの程度適切ですか? . つまり、MALLET が提供するトピックの分布は、モデル構築段階で分析が必要なデータセットのサブセットのみを提供する場合、トピックの人気を経時的に追跡するための適切なメトリックであるかということです。

ありがとう。

score 3 · Accepted Answer

潜在意味索引付けに精通していますか？潜在的ディリクレ分析は、同じ種類のことを行うための別の方法であるため、LSIまたはpLSIは、LDAの目標に関する知識を得るのに簡単な出発点になる可能性があります。

3つの手法はすべて、教師なしの方法でトピックに固定され（検索するトピックの数を指定します）、各ドキュメントがさまざまな比率で各トピックをカバーしていると想定します。割り当てるトピックの数によっては、コーパスのサブフィールドのように動作する場合があり、ニュースのトレンドトピックについて考えるときに人々が考える「トピック」ほど具体的でない場合があります。

どういうわけか、各ドキュメントが特定のトピックを表していると想定したいと思います。LSI / pLSI / LDAはこれを行いません。つまり、各ドキュメントをトピックの混合としてモデル化します。良い結果が得られない、または試す価値がないという意味ではありませんが、（LSIの文献に関する包括的な知識はありませんが）まったく新しい研究の問題に取り組んでいるのではないかと思います。。

（FWIW、k-Meansのようなクラスタリング手法を使用すると、各ドキュメントに1つのトピックがあるという仮定をより簡単にモデル化できると思います。）

score 2 · Accepted Answer

Princeton の topic-models メーリングリストを確認してください。トピックモデルに関連する理論的および実際的な問題について説明します。

score 2 · Accepted Answer

トピックの人気を時系列で追跡するには、3 つのアプローチがあることを私は知っています。

時間の経過とともにトピックがどのように変化するかを調べる動的トピックモデリングアプローチが役立つようです。ここに Blei の作品の素晴らしいビデオ概要があり、彼のホームページにはたくさんの PDF があります。彼はそれを行う C のパッケージを持っています。
関連するアプローチは、Alice Oh のトピック文字列アプローチです。彼女は、タイムスライスから LDA によってテキストのトピックを取得し、トピックの類似性メトリックを使用して、異なるタイムスライスのトピックを文字列にリンクします (ビデオ、PDF )。MALLET はトピック文字列分析の一部である可能性があるように見えますが、LDA 分析をどのように行ったかについては言及していません。
最も単純なアプローチは、David Mimno が彼の論文で行っていることかもしれません。そこで彼は、トピック内の単語の時系列分布からトピックの平均年を計算します。彼は MALLET の開発に携わっているので、おそらくそのパッケージですべて完了しています。

nlp - 潜在的ディリクレ配分 (MALLET) に関する質問

3 に答える 3

Related

Reference