問題タブ [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 適切なテキストを生成する方法は?
私がやりたいことは、テキスト トレーニング セット (自然言語) を取得し、テキスト コンテンツを模倣しようとする自動的に作成されたテキストでこのセットを増やすことです。私は単語の袋の仮定を使用しています。順序は問題ではなく、構文は問題ではありません。ベースの一般的なトピックに関連する単語を含むテキストを作成したいだけです。
現在、潜在的ディリクレ配分法を使用して、ドキュメントをトピック分布に分類し、セットのトピック分布を平均化し、これらのトピック分布からドキュメントを生成しています。
私は2つのことを知りたいです:
1-それを行うためのより良い方法はありますか?
2-トピックを汚染することなく、セットのドメインではないテキストで LDA をトレーニングできますか。増やしたいセットは、政治に関するテキストです。任意の種類のテキスト (車、ファッション、音楽) でモデルをトレーニングし、政治テキストのベースを分類してトピック分布を取得し、この分布から同様のテキストを生成できますか?
私はpython 2.7とgensimを使用しています。
python - gensim コーパスをロードする際の unpickling エラーを解決するには? - パイソン
シリアル化されたコーパスをに保存できますfoobar.mm
が、読み込もうとするとUnpicklingError
. ただし、辞書のロードは問題ないようです。誰でもこれを解決する方法を知っていますか? そして、なぜこれが起こるのですか?
python - gensim pythonでgoogle word2vec .binファイルを操作する
Google word2vec サイト (freebase-vectors-skipgram1000.bin.gz) から事前トレーニング済みの .bin ファイルを word2vec の gensim 実装にロードすることから始めようとしています。モデルは正常にロードされ、
を使用して..
を作成し、
しかし、最も似た機能を実行すると。語彙に単語が見つかりません。私のエラーコードは以下です。
私が間違っているアイデアはありますか?
python - ゲンシムをインストールできません
gensim を (pip install および setup install で) インストールしようとすると、次のエラーが表示されます。
どうすればこれを解決できますか
lda - Gensim でのトピック モデルの評価
Gensimを使用して LDA トピック モデリングを実験してきました。Gensim にはトピック モデル評価機能が見つからなかったようです。これは、提示された評価テキストに関するトピック モデルの難しさを報告できるため、その後の LDA パラメータ (トピック数など) の微調整が容易になります。Gensimでトピックモデルの評価を実行する方法について、誰かが光を当てることができれば幸いです。この質問はmetaoptimizeにも投稿されています。
python - GensimのLSIモデルでトピックスコアを取得するには?
gensim で LsiModel を使用して、10000 通のメールのコーパスからトピックをモデル化しています。各トピックの単語と単語スコアを取得してファイルに保存できます。print_topics()とshow_topics( )を使用してみましたが、どちらもそれらの単語に関連付けられた単語とスコアのみを返します。しかし、ログ ファイルに出力するトピック スコアも必要です。それらの値を変数に入れたいのです。以下のログ出力例のように:
これらのスコアが変数に必要です。
パッケージにこれらの出力を取得する方法はありますか? 助けてください。
python - gensim を使用した LDA 実装の理解
Python の gensim パッケージが潜在的ディリクレ割り当てを実装する方法を理解しようとしています。私は次のことをしています:
データセットを定義する
ストップワードを削除した後、辞書とコーパスを作成します。
次に、LDA モデルを定義します。
次に、トピックを印刷します。
この結果から多くを理解することはできません。各単語の出現確率を提供していますか? また、トピック #1、トピック #2 などの意味は何ですか? 多かれ少なかれ、最も重要なキーワードのようなものを期待していました。
gensim のチュートリアルは既に確認しましたが、あまり役に立ちませんでした。
ありがとう。