-1

私がやりたいことは、テキスト トレーニング セット (自然言語) を取得し、テキスト コンテンツを模倣しようとする自動的に作成されたテキストでこのセットを増やすことです。私は単語の袋の仮定を使用しています。順序は問題ではなく、構文は問題ではありません。ベースの一般的なトピックに関連する単語を含むテキストを作成したいだけです。

現在、潜在的ディリクレ配分法を使用して、ドキュメントをトピック分布に分類し、セットのトピック分布を平均化し、これらのトピック分布からドキュメントを生成しています。

私は2つのことを知りたいです:

1-それを行うためのより良い方法はありますか?

2-トピックを汚染することなく、セットのドメインではないテキストで LDA をトレーニングできますか。増やしたいセットは、政治に関するテキストです。任意の種類のテキスト (車、ファッション、音楽) でモデルをトレーニングし、政治テキストのベースを分類してトピック分布を取得し、この分布から同様のテキストを生成できますか?

私はpython 2.7とgensimを使用しています。

4

1 に答える 1

0

NLTK の generate() 関数は、探しているものかもしれません。

ドキュメントから:

generate(length=100)

trigram 言語モデルを使用して生成されたランダムなテキストを出力します。

パラメーター:

length (int) – 生成するテキストの長さ (デフォルト = 100)

于 2013-09-17T16:56:07.353 に答える