問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
3189 参照

python - gensim pythonでgoogle word2vec .binファイルを操作する

Google word2vec サイト (freebase-vectors-skipgram1000.bin.gz) から事前トレーニング済みの .bin ファイルを word2vec の gensim 実装にロードすることから始めようとしています。モデルは正常にロードされ、

を使用して..

を作成し、

しかし、最も似た機能を実行すると。語彙に単語が見つかりません。私のエラーコードは以下です。

私が間違っているアイデアはありますか?

0 投票する
2 に答える
2742 参照

python - 自然言語処理: word2vec のテキスト コーパス形式

大規模な Wikipedia DataSet で word2vec を使用するチュートリアルを見つけました http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
Daniel が持っているものと同様の yhat rest API を構築したいと思います彼のチュートリアルで示されています。

今日は、分析したいスペインの新聞記事をまとめました。私がデータを取得した Web サイトでは、記事が非常に定期的にフォーマットされているため、1000 件の記事が文字列として保存されています。

私は Python に慣れており、チュートリアルに記載されている Python ラッパーを使用したいと考えていました: https://github.com/danielfrg/word2vec

コーパスを word2vec にロードするにはどうすればよいですか? 現在、文字列の配列があります。

現時点では、私のコーパスはメモリに収まります。word2vec は今でも適切なツールですか?

0 投票する
3 に答える
3784 参照

theano - word2vecツールで言語モデルを計算するには?

私はニューラル ネットワーク言語モデルを構築しようとしていますが、Mikolov らによる word2vec ツールはこの目的に適したツールのようです。私はそれを試しましたが、単語表現を生成するだけです。そのツールまたは他の合理的な深層学習フレームワークで言語モデルを作成する方法を知っている人はいますか?

0 投票する
6 に答える
29151 参照

gensim - gensim word2vec モデルの更新

98892 個のドキュメントでトレーニングされた gensim の word2vec モデルがあります。文の配列 (つまり、モデルをトレーニングしたセット) に存在しない特定の文については、その文でモデルを更新して、次回のクエリで何らかの結果が得られるようにする必要があります。私はこのようにやっています:

そして、これをログとして出力します:

さて、ほとんどのポジティブ( as )に対して同様の new_sentence を使用してクエリを実行すると、model.most_similar(positive=new_sentence)エラーが発生します。

「寒い」という言葉は、私がそのことを訓練した語彙の一部ではないことを示しています (私は正しいですか)?

問題は次のとおりです: モデルを更新して、指定された新しい文のすべての可能な類似点を与えるにはどうすればよいでしょうか?

0 投票する
2 に答える
8995 参照

nlp - ウィキペディアの Gensim train word2vec - 前処理とパラメーター

gensimイタリアのウィキペディア「http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2」を使用して word2vec モデルをトレーニングしようとしています。

しかし、このコーパスに最適な前処理が何であるかはわかりません。

gensimモデルは、トークン化された文のリストを受け入れます。私の最初の試みは、の標準WikipediaCorpusプリプロセッサを使用することgensimです。これにより、各記事が抽出され、句読点が削除され、スペースで単語が分割されます。このツールを使用すると、各文がモデル全体に​​対応することになりますが、この事実がモデルに与える影響については確信が持てません。

この後、デフォルトのパラメーターを使用してモデルをトレーニングします。残念ながら、トレーニングの後、私は非常に意味のある類似性を得ることができなかったようです.

このタスクにウィキペディアのコーパスで最も適切な前処理は何ですか? (この質問が広すぎる場合は、関連するチュートリアル/記事を参照してください)

これは私の最初の試行のコードです: