問題タブ [sentence-similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - テキスト内の文間の意味的一貫性を見つける
これらのリンクlink1とlink2のコードに基づいて、a 間の意味的類似性を自動的に計算するプログラムを作成する助けが必要です。連続文と b. 文は、ドキュメント全体 (1000 文) 内の 1 つの介在句で区切られます。
提供されたコードは既にトークン化されており、意味の類似性を見つけることができますが、テキスト全体 (a、b) の連続する文と「介在する」文の間の意味の類似性を計算 (および表示) する新しいコードを記述する方法がわかりません。同じことを何度もやりたくない。
python - テキスト内の文間の意味的類似性
ここと以前のフォーラム ページの資料を使用して、テキスト全体の連続する文間の意味的類似性を自動的に計算するプログラムのコードを記述しました。ここにあります;
最初の部分のコードは最初のリンクからコピーして貼り付けたもので、その下に 245 行の後に挿入したものがあります。245 行目以降の余分な部分をすべて削除しました。
私のテキストファイルは次のようにフォーマットされています。
赤いアルコール飲料。新鮮なオレンジジュース。英語の辞書。黄色の壁紙。
最後に、次のように、類似度が横にある連続した文のすべてのペアを表示したいと思います。
python - 文字列類似度 TF-IDF Bag of words または Word2vec
2 つの文字列間の類似性を計算するアプリケーションを作成しようとしています。弦は長くありません。最大 3 文の長さ。私はいくつかの調査を行い、いくつかの可能な解決策に出くわしました。
最初の 1 つは単語の袋を使用します: 単語を数え、生成された 2 つのベクトルを比較します (コサイン類似度)
2 つ目は TF-IDF を使用し、生成されたベクトルを比較します。
3 つ目は、word2vec を使用してベクトルを比較することです。
それでは質問です。
パフォーマンスに関しては、単語 2vec のパフォーマンスは、短い文の TF-IDF よりも優れていますか?
word2vec モデルをトレーニングする最良の方法は何ですか? 大量のテキスト (ウィキペディアのダンプなど) を使用するか、比較対象の文のみを使用してトレーニングする必要があります。
word2vecから文の類似度を取得する方法. 各文の単語を平均化する必要がありますか、それともより良い解決策がありますか?