問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
37258 参照

python - word2vec を使用してベクトルに最も近い単語を見つける方法

Word2vec を使い始めたばかりで、ベクトルに最も近い単語をどのように見つけることができるか疑問に思っていました。ベクトルのセットの平均ベクトルであるこのベクトルがあります。

トレーニング データでこのベクトルに最も類似した単語を見つける簡単な方法はありますか?

または、唯一の解決策は、このベクトルとトレーニング データ内の各単語のベクトルとの間のコサイン類似度を計算し、最も近いものを選択することですか?

ありがとう。

0 投票する
1 に答える
705 参照

java - DeepLearning4J NoSuchMethodError

ニューラル ネットワークと NLP は初めてです。このライブラリを見つけました: DeepLearning4J。私はそれを機能させようとしていますが、この命令を実行するたびに:

検索している単語がネットワークにマップされている場合、次の例外が発生します。

NoSuchMethodError は、ライブラリのバージョンが異なることが原因である可能性があることを知っています。この特定のケースでは、これはおそらく nd4j が原因です。バージョンを何度もチェックしましたが、これが現在インポートしているものです。

  • akka-actor_2.11-2.4-M3.jar
  • akka-cluster_2.11-2.4-M3.jar
  • akka-remote_2.11-2.4-M3.jar
  • akka-slf4j_2.11-2.4-M3.jar
  • byte-buddy-0.6.15.jar
  • config-1.3.0.jar
  • deeplearning4j-core-0.0.3.3.4.alpha2.jar
  • deeplearning4j-nlp-0.0.3.3.4.alpha2.jar
  • deeplearning4j-scaleout-akka-0.0.3.3.4.alpha2.jar
  • deeplearning4j-ui-0.0.3.3.4.alpha2.jar
  • javassist-3.12.1.GA.jar
  • jblas-1.2.4.jar
  • jcublas-6.5.jar
  • lucene-analyzers-common-4.10.3.jar
  • ルセンコア-4.10.3.jar
  • nd4j-api-0.4-rc3.4.jar
  • nd4j-bytebuddy-0.4-rc3.4.jar
  • nd4j-jblas-0.4-rc3.4.jar
  • nd4j-jcublas-common-0.4-rc3.4.jar
  • netty-3.10.4.Final.jar
  • protobuf-java-2.6.1.jar
  • 反射-0.9.10.jar
  • scala-library-2.12.0-M2.jar
  • セレン-サーバー-スタンドアロン-2.47.1.jar

誰かが私に問題を説明できますか?

0 投票する
0 に答える
106 参照

python - ブロードキャストされた変数を使用した Spark からの結果の不一致

各ドキュメントの個々の単語ベクトルを合計する word2vec モデルと pyspark ジョブがあります。

pyspark の結果と通常の結果の間に奇妙な矛盾が生じています。

Spark での結果

火花での結果

スパークなしの結果 スパークなしの結果

同じベクトルをローカルで計算すると法線ベクトルが得られますが、15桁の次元の強度を持つ配列が得られます(上記の7番目の要素を見てください)。ここで Spark を使用すると何が問題になるのでしょうか? 結果をマスターに伝える際に、回答を台無しにしていませんか?

0 投票する
3 に答える
22152 参照

nlp - トピック モデリングに Word2Vec を使用する

トピック モデリング (テキストから可能なトピックを抽出する) の最も一般的な手法は、Latent Dirichlet Allocation (LDA) であると読みました。

しかし、Word2Vec は単語をベクトル空間でクラスター化するので、トピック モデリングを試してみるのは良い考えではないかと興味があります。クラスターをトピックと見なすことはできないのでしょうか。

研究のためにこのアプローチに従うことは理にかなっていると思いますか? 結局のところ、私が興味を持っているのは、トピックに応じてテキストからキーワードを抽出することです。