問題タブ [doc2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
40018 参照

python - 事前に訓練された単語ベクトルで Gensim doc2vec を使用するには?

私は最近、Gensim への doc2vec の追加に出会いました。事前にトレーニングされた単語ベクトル (word2vec の元の Web サイトにあるものなど) を doc2vec で使用するにはどうすればよいですか?

それとも、doc2vec は、段落ベクトルのトレーニングに使用するのと同じ文から単語ベクトルを取得していますか?

ありがとう。

0 投票する
1 に答える
2548 参照

python - gensim で事前トレーニング済みのモデルをロードし、それを使用して doc2vec をトレーニングする方法は?

すでにトレーニング済みの word2vec モデルの準備ができています。私はそれをCSVファイルとしてシリアル化しました:

私が知りたいのは、その単語ベクトル モデルを読み込んで、gensimそれを使用して段落または doc2vec モデルをトレーニングする方法です。

このDoc2Vec チュートリアルでは、モデルを " # C text format" の形式でロードできると書かれていますが、それが実際に何を意味するのかわかりません。そもそも「Cテキスト形式」とは何ですか、しかしもっと重要です:

  • word2vec モデルを読み込んで doc2vec トレーニングに使用するにはどうすればよいですか?

word2vec モデルから語彙を構築するにはどうすればよいですか?

0 投票する
1 に答える
418 参照

classification - doc2vec で見えない段落の段落表現を取得する

分類タスクにgenism doc2vecモデルを使用したいと思います。ただし、doc2vec の gensim 実装では、モデルをトレーニングする前に語彙を構築するためにすべてのドキュメント (トレーニングとテスト) を確認する必要があるようです。それ以外の場合、ボキャブラリの構築時に存在しなかったドキュメントのドキュメント ベクトルを取得しようとすると、keyerror が発生します。私の理解は正しいのだろうか!実際には、トレーニング時にテスト データにアクセスすることはできません。

テスト文書の文書表現を取得できるように、テスト時に語彙を更新する方法はありますか?

0 投票する
2 に答える
7983 参照

gensim - gensim Doc2Vec から単語ベクトルを取得するには?

gensim.models.doc2vec.Doc2Vec モデル
d2v_model = Doc2Vec(sentences, size=100, window=8, min_count=5, workers=4) をトレーニングし、docvec = d2v_model.docvecs[0] でドキュメント ベクトルを取得できます。

トレーニング済みモデルから単語ベクトルを取得するにはどうすればよいですか?

0 投票する
1 に答える
471 参照

python - 単語ベクトル上の numpy 配列の問題をグループ化および集約する

私のパンダのデータフレームは次のようになります。

私は doc2vec 実装を実行しようとしていますが、映画 ID でグループ化し、wordEmbeddingVector のベクトルの合計を取り、合計ベクトルと入力ベクトルの間のコサイン類似度を計算できるようにしたいと考えています。

しかし、それは何年にもわたって実行されているようで、何か間違ったことをしているのではないかと思いました. そこで、類似度関数を削除して、グループ化して合計しようとしました。しかし、これも終了していないようです (まあ 1 時間以上) 私は何か間違ったことをしているのですか、それとも実際にはそれほど遅いのですか? データ フレームに 135392 行あるため、大規模ではありません。

とても有難い!

0 投票する
1 に答える
631 参照

gensim - gensim doc2vecのサイズパラメータは何を表していますか

doc2vecfunctionには、 というパラメーターがありますsize

sizeは出力ベクトルの次元でありsize=400、コンテンツをキャプチャする場合は if よりも優れていることを理解していsize=100ます。

しかし、私は理解していません、何sizeの略ですか?次の単語を予測するために、Doc2Vec が単語からどれだけ検索するかということですか? またはそれはどういう意味ですか?

どうもありがとう、

0 投票する
0 に答える
268 参照

python - Doc2Vec の文書ベクトル、パラグラフ ID とは

doc2vec に関する論文を読んでいます。しかし、段落IDとは何か、それがどのように訓練されているのかはよくわかりません...

gensim パッケージを使用して感情分析タスクを実装しようとしましたが、それがどのように機能するのか正確にはわかりません...

論文によると、ドキュメント ベクトルは別の単語と同じようにトレーニングされます。しかし、それはどのように処理されますか?word2vecトレーニングと同時にトレーニングされますか?また、単語として扱われる場合、段落のメッセージをどのように含めることができますか? そして、文のラベルとは何か、そして私を最も混乱させるのは行列 Dです...

私にプロセスを説明できる人はいますか?私は完全に台無しになりました...助けてください... thx

0 投票する
0 に答える
497 参照

python - Doc2Vec/Word2Vec 深層学習モデルのパフォーマンスを検証する方法はありますか?

Doc2Vec および Word2Vec 深層学習アルゴリズム ( Gensim の Doc2Vec API の説明) を使用しています。詳しい説明はこちら

model.n_similarity(wordSet1, wordSet2)現在、基本的に2セットの単語間のコサイン類似度を計算する方法の使用に興味があります。

私はモデルのパフォーマンスを検証する方法に興味があります。n_similiarity()機能だけでなく、モデルが提供する正確性または現実的な結果が全体的にどの程度かということです。ディープ ラーニングを実行するため、そのパフォーマンスを知る方法があるかどうかはわかりません。

調べてから使用する必要がある手法はありますか、または結果があり、比較する必要があるデータセットはありますか?

どんな提案でも大歓迎です。ありがとうございました。