問題タブ [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - gensim pythonでgoogle word2vec .binファイルを操作する
Google word2vec サイト (freebase-vectors-skipgram1000.bin.gz) から事前トレーニング済みの .bin ファイルを word2vec の gensim 実装にロードすることから始めようとしています。モデルは正常にロードされ、
を使用して..
を作成し、
しかし、最も似た機能を実行すると。語彙に単語が見つかりません。私のエラーコードは以下です。
私が間違っているアイデアはありますか?
python - 自然言語処理: word2vec のテキスト コーパス形式
大規模な Wikipedia DataSet で word2vec を使用するチュートリアルを見つけました
http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/
Daniel が持っているものと同様の yhat rest API を構築したいと思います彼のチュートリアルで示されています。
今日は、分析したいスペインの新聞記事をまとめました。私がデータを取得した Web サイトでは、記事が非常に定期的にフォーマットされているため、1000 件の記事が文字列として保存されています。
私は Python に慣れており、チュートリアルに記載されている Python ラッパーを使用したいと考えていました: https://github.com/danielfrg/word2vec
コーパスを word2vec にロードするにはどうすればよいですか? 現在、文字列の配列があります。
現時点では、私のコーパスはメモリに収まります。word2vec は今でも適切なツールですか?
theano - word2vecツールで言語モデルを計算するには?
私はニューラル ネットワーク言語モデルを構築しようとしていますが、Mikolov らによる word2vec ツールはこの目的に適したツールのようです。私はそれを試しましたが、単語表現を生成するだけです。そのツールまたは他の合理的な深層学習フレームワークで言語モデルを作成する方法を知っている人はいますか?
gensim - gensim word2vec モデルの更新
98892 個のドキュメントでトレーニングされた gensim の word2vec モデルがあります。文の配列 (つまり、モデルをトレーニングしたセット) に存在しない特定の文については、その文でモデルを更新して、次回のクエリで何らかの結果が得られるようにする必要があります。私はこのようにやっています:
そして、これをログとして出力します:
さて、ほとんどのポジティブ( as )に対して同様の new_sentence を使用してクエリを実行すると、model.most_similar(positive=new_sentence)
エラーが発生します。
「寒い」という言葉は、私がそのことを訓練した語彙の一部ではないことを示しています (私は正しいですか)?
問題は次のとおりです: モデルを更新して、指定された新しい文のすべての可能な類似点を与えるにはどうすればよいでしょうか?
nlp - ウィキペディアの Gensim train word2vec - 前処理とパラメーター
gensim
イタリアのウィキペディア「http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2」を使用して word2vec モデルをトレーニングしようとしています。
しかし、このコーパスに最適な前処理が何であるかはわかりません。
gensim
モデルは、トークン化された文のリストを受け入れます。私の最初の試みは、の標準WikipediaCorpus
プリプロセッサを使用することgensim
です。これにより、各記事が抽出され、句読点が削除され、スペースで単語が分割されます。このツールを使用すると、各文がモデル全体に対応することになりますが、この事実がモデルに与える影響については確信が持てません。
この後、デフォルトのパラメーターを使用してモデルをトレーニングします。残念ながら、トレーニングの後、私は非常に意味のある類似性を得ることができなかったようです.
このタスクにウィキペディアのコーパスで最も適切な前処理は何ですか? (この質問が広すぎる場合は、関連するチュートリアル/記事を参照してください)
これは私の最初の試行のコードです: