問題タブ [cosine-similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1556 参照

matrix - 2 つの異なる行列の固有ベクトルのコサイン類似度

2 つの非常に大きな行列の固有ベクトルのコサイン類似度を見つけて、それらがどの程度類似しているかを比較することは、有効な尺度ですか?

私は2つの非常に大きな行列AとBを持っています.私は見つけました:

-> 共分散行列 C Aおよび C B

-> C Aと C Bの上位 20 個の固有ベクトル、

-> 上位 20 個の固有ベクトル間のコサイン類似度。

コサイン値に基づいて、行列 A と B が類似/非類似であると結論付けるのは正しいですか?

0 投票する
1 に答える
1033 参照

python - コサイン類似度pythonの問題

こんにちは、Python の情報検索プログラムでクエリと返すドキュメントの間のコサイン類似度を計算しようとしています。

コサインの類似性のために、私はこの実装を使用します:

このWebサイトでこの解決策を見つけましたが、いくつか問題があります。各ドキュメントの重みとベクトルを tf*idf します。これは、ドキュメント ベクトルとクエリ ベクトルの例です。

わかりましたので、問題は、コサイン類似度を実行すると、結果が 1 よりも大きくなることです。これはどのように可能ですか? コサインは 1 より大きくなりませんか? 私の推論は正しいですか?この場合、コサイン類似度を計算するのは正しいですか? 助けてください、ありがとう

0 投票する
1 に答える
366 参照

statistics - このユースケースでコサイン類似度を使用するにはどうすればよいですか?

クエリ ベクトル A と項目ベクトル B がある場合、ベクトルを重み付け/正規化する方法 (同じ戦略) を誰かが案内してくれると助かります。ベクトル A には次のコンポーネントがあります (property1 (バイナリ)、property2 (バイナリ)、property 3 (範囲 0 から 50 の整数)、property4 (範囲 (0 から 10) の整数)

ベクトル B は同じプロパティを持ちます

コサイン類似度を使用したこれらの 2 つのベクトル間の角度から、2 つのベクトル間の距離がわかります。類似性に基づいてレコメンデーションを作成したい。

しかし、この場合、プロパティやベクトルを正規化する方法については明確ではありません。これは、binary+binary_int 範囲 +int 範囲であるためです。また、あるプロパティに他のプロパティよりも高い重みを付与したい場合は、どうすればよいですか。どのようなオプションがありますか。

ドキュメントでコサイン類似性の例をオンラインで見つけましたが、この場合、ベクトル A と B はドキュメントではないため、この場合は TF-idf を使用していません。

お知らせ下さい、

ありがとう

0 投票する
1 に答える
956 参照

nlp - 潜在的意味分析を使用してパッセージの類似性を測定する

現在、セマンティクス (意味) に基づいて 2 つのテキストを比較するプログラムを開発しています。文字列の距離を比較するための便利な方法を提供する lingpipe などのライブラリがあることは理解していますが、テキストの類似性を測定するには LSA が最適な方法であると聞いています。

LSA を使用してテキストの類似性を測定することに関して、1 つだけ混乱があります。そのプロセスは、LSA では、

ただ知りたいだけです...

A. SVD では、行列は 3 つの小さな行列に縮小されます。では、余弦距離の測定に使用される小さい行列はどれでしょうか?

B. 通常、余弦距離はベクトルに適用されます。したがって、それらを行列に適用する場合、行列が反復され、2つのベクトルごとにコサイン距離が測定されると仮定しました。そして、これらすべての距離の平均は、これら 2 つの行列間の最終的なコサイン距離であると見なされますか?

これは非常にニッチなトピックであることは理解していますが、この 2 つの質問に光を当てたいと思っています。ありがとう

0 投票する
1 に答える
908 参照

python - scikit-learn で興味深い記事を予測する

以前に気に入った記事に基づいて、その記事が気に入るかどうかを予測できるアルゴリズムを構築しようとしています。

例:

  • 私は 50 件の記事を読み、10 件の記事を気に入りました。気に入ったとプログラムに伝えます。
  • それから20の新しい記事が来ています。私のプログラムは、私が以前に気に入った 10 件に基づいて、新しい記事ごとに「いいねの割合」を提供する必要があります。

ここでリードを見つけました: Python: tf-idf-cosine: to find document similarity

次に、データセットの最初のドキュメントをデータセット内の他のドキュメントと比較します。

私の場合、10 個の記事のテキストを連結し、TfidfVectorizer を実行してから、新しい大きなベクトルを新しい記事ごとに比較します。

しかし、比較はどのように行われるのだろうか:

  • 小さなベクトルと比較した大きなベクトル (10 記事) OR
  • 大きいものに比べて小さいもの

あなたが私の主張を理解しているかどうかはわかりませんが、最初のケースでは、大きなベクトルの単語の 90% は小さなベクトルには含まれません。

私の質問は次のとおりです。コサイン類似度はどのように計算されますか? 私のプロジェクトのためのより良いアプローチが見えますか?

0 投票する
1 に答える
1254 参照

mapreduce - MapReduce を使用してコサイン類似度を計算する

MapReduce でコサイン類似度を使用してアイテムベースのレコメンデーションを作成しようとしています。

入力セットはこちら。

この入力データを使用して設計するにはどうすればよいですか?

コサイン類似度を使用するには、入力は次のようにする必要があると思います。

しかし、MapReduce を使用して各行を比較するにはどうすればよいでしょうか?

助けてください。私はこれに1週間ほどうんざりしています..