3

ニュース記事の大規模なコーパスからトピックのリストを取得しようとしています.gensimを使用して、LDAを使用して各ドキュメントのトピック分布を抽出することを計画しています. lda の gensim 実装で必要な加工済み記事のフォーマットと、未加工の記事をそのフォーマットに変換する方法を知りたいです。ウィキペディアのダンプでldaを使用することに関するこのリンクを見ましたが、コーパスが処理された状態であり、そのフォーマットがどこにも言及されていないことがわかりました

4

2 に答える 2

4

問題が正しかったかどうかはわかりませんが、gensim は複数のコーパスをサポートしています。それらのリストはここにあります。

自然言語を処理したい場合は、まずテキストをトークン化する必要があります。gensim Web サイトのステップバイステップのチュートリアルに従うことができます。それはかなりよく説明されています。

于 2012-04-06T17:33:07.577 に答える
3

オフライン学習ステップとオンライン機能作成ステップがあります。

オフライン学習

ウィキペディアなどの大きなコーパスがあるか、大量のニュース記事をダウンロードしたとします。

各記事/ドキュメントについて:

  1. 生のテキストを取得します
  2. あなたはそれを見出し語にします。Gensim には utils.lemmatize があります
  3. 辞書を作成します
  4. 単語表現のバッグを作成します

次に、TF-IDF モデルをトレーニングし、コーパス全体を TF-IDF 空間に変換します。最後に、「TF-IDF コーパス」で LDA モデルをトレーニングします。

オンライン

新着ニュース記事の場合、ほぼ同じことを行います。

  1. レンマ化する
  2. 辞書を使用して単語表現のバッグを作成します。
  3. TF-IDF モデルを使用して TF-IDF 空間に変換します。
  4. LDA 空間に変換します。
于 2012-11-21T20:22:42.673 に答える