問題タブ [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
2525 参照

artificial-intelligence - データマイニングにおける「類似性」

データマイニングの分野で、「類似性」と呼ばれる特定の下位分野はありますか? はいの場合、それは何を扱いますか。例、リンク、参照は役に立ちます。

また、この分野は初めてなので、データ マイニングと人工知能がどれほど密接に関連しているかについて、コミュニティの意見を求めています。それらは同義語ですか、一方は他方のサブセットですか?

知識を共有していただきありがとうございます。

0 投票する
4 に答える
1841 参照

solr - 0 から 1 の範囲の Solr 検索スコア

ドキュメントの類似性スコアが、たとえば 0 (一致なし) から 1 (完全なドキュメントとクエリの一致) の範囲になるように Solr を構成することは可能ですか。

ありがとう!

0 投票する
1 に答える
1571 参照

java - Java: JPQL 検索 -similar- 文字列

JPQL を類似の文字列に一致させるには、どのような方法がありますか?

同様に、私は意味します:

  • 含む: 検索文字列は、一致するエンティティの文字列内で見つかります
  • 大文字小文字を区別しません
  • 小さなスペルミス: 例: "arow" は "arrow" と一致します

最初の 2 つは簡単だと思いますが、最後の 1 つは助けていただければ幸いです

ありがとうございました

0 投票する
6 に答える
10502 参照

statistics - 類似度の計算方法

私は、任意の 2 人のユーザー間の類似性を計算する必要があるコミュニティ Web サイトを作成しています。各ユーザーは、次の属性で記述されます。

年齢、肌質(オイリー、ドライ)、髪質(ロング、ショート、ミディアム)、ライフスタイル(アウトドア好き、テレビジャンキー)など。

この問題に対処する方法を誰か教えてもらえますか、またはいくつかのリソースを教えてもらえますか?

0 投票する
4 に答える
3062 参照

computer-science - コンピューター サイエンスの分類法

ユーザーがタグのコレクションを持つ Web アプリケーションを開発しています。タグの類似性に基づいて、ユーザー向けの提案リストを作成する必要があります。
たとえば、ユーザーがシステムにログインすると、システムは自分のタグを取得し、ユーザーの DB でこれらのタグを検索し、類似のタグを持つユーザーを表示します。たとえば、ユーザー 1が次のタグ [ Linux、Apache、MySQL、PHP ] を持ち、ユーザー 2が [ Windows、IIS、PHP、MySQL ] を持っている場合、ユーザー 2は 50% の重みでユーザー 1に一致します。タグ ( PHPおよびMySQL )。
しかし、ユーザー 1が [ASP、IIS、MS Access ] で、ユーザー 2は [ PHP、Apache、MySQL ] を持っています。この状況では、私のシステムはユーザー 2をユーザー 1の「友達」提案しません。しかし、この 2 人のユーザーは仕事の分野で類似点があり、どちらも Web テクノロジー (または Web プログラミングなど) に取り組んでいることがわかっています。 そういうわけで、私はコンピュータ サイエンスの一種の分類法が必要なのです (今のところ、おそらく、医学、物理学、数学などの他の分野の分類法も必要になるでしょう)。これらの概念は分類されており、検索するときに例えば、 ASPPHPの類似性は、類似性があり、1 つのグループ (またはカテゴリ) に属していると言えます。

私の問題を明確に説明したいと思いますが、何か間違っていることが説明されている場合は、修正していただければ幸いです.
ありがとう

0 投票する
3 に答える
5390 参照

algorithm - 最も近い一致を見つける

次のような一連のパラメーターを持つオブジェクトがあります。

反対側には、オブジェクトのリストがあります:

リストされたオブジェクトの最初のオブジェクトに最も近いものを見つけるための最良の (最も簡単な) アルゴリズムは何ですか?

0 投票する
3 に答える
5472 参照

php - テキストの類似度を計算する PHP アルゴリズムを記述した論文「Oliver [1993]」とは?

PHP ライブラリに similar_text() 関数があります。ドキュメント ( http://php.net/manual/en/function.similar-text.php ) には、「これは、Oliver [1993] で説明されているように、2 つの文字列間の類似性を計算する」と書かれています。

広範囲にわたる検索にもかかわらず、「Oliver [1993]」が言及している論文を見つけることができません。「オリバー」が誰であるかの候補者もいません。PHP ソースは文書化されていません。Oliver 1993 に関する他の唯一の参照はhttp://www.codeguru.com/forum/showthread.php?t=41089のフォーラムにあり、その情報は PHP ドキュメントから得られたと思います。

これが何であるか知っている人はいますか?

0 投票する
1 に答える
13594 参照

math - 等しい次元の2つの時系列間のマハラノビス距離を計算する方法は?

時系列データのデータマイニングを行っています。寸法が等しい 2 つのシリーズ間の距離または類似度を計算する必要があります。ユークリッド距離、Cos 類似度、またはマハラノビス距離を使用するように提案されました。最初の 2 つは有用な情報を提供しませんでした。Web 上のさまざまなチュートリアルを理解できないようです。

そう、

2 つのベクトル A(a1, a2, a3,...,an) と B(b1, b2, b3,...,bn) が与えられた場合、それらの間のマハラノビス距離をどのように見つけますか?

( SO自体にこれらの距離測定を使用することについてアドバイスを受けました.Cos類似度を計算する方法に関する質問があるため、この質問を閉じる前に検討してください)

0 投票する
4 に答える
1231 参照

python - Python で一緒に評価された項目のリストを作成するアルゴリズムを最適化する

指定された購入イベントのリスト (customer_id,item)

アイテムが別のアイテムと一緒に購入された回数を示すデータ構造を構築しようとしています。同時購入ではなく、データ保存を始めてから購入。結果は次のようになります

ハンマーを釘で 2 回購入したこと (人 1、3)、ドライバーを 1 回購入したこと (人 1)、ネジをドライバーで 1 回購入したこと (人 3)、などを示します。

私の現在のアプローチは

users = dict ここで、userid がキーで、購入したアイテムのリストが値です

usersForItem = dict ここで itemid がキーで、アイテムを購入したユーザーのリストが値です

userlist = 現在のアイテムを評価したユーザーの一時リスト

したがって、この時点で、誰が何を購入したか、および誰が何を購入したかという 2 つの口述があります。ここがややこしいところです。usersForItem に値が設定されたので、これをループ処理し、アイテムを購入した各ユーザーをループ処理して、ユーザーの他の購入を調べます。私は、これが最も Pythonic な方法ではないことを認識しています。Python に夢中になる前に、正しい結果 (私はそうです) が得られるように努めています。

これを行うことができるより効率的な方法はありますか?また、この種の操作に適切な学名があれば教えていただきたいです。

編集: 同時に一緒に購入されたアイテムに購入を制限していないという事実を含めるように明確にしました. アイテムはいつでも購入できます。

0 投票する
3 に答える
23314 参照

python - 異なる長さのベクトルのコサイン類似度?

TF-IDFを使用してドキュメントをカテゴリに分類しようとしています。いくつかのドキュメントの tf_idf を計算しましたが、これらのドキュメントの 2 つの間のコサイン類似度を計算しようとすると、次のようなトレースバックが表示されます。

len(u)==len(v) が正しいアプローチになるようにベクトルをスライスしていますか? コサインの類似性は、異なる長さのベクトルで機能すると思います。

私はこの機能を使用しています:

また、ベクトル内の tf_idf 値の順序は重要ですか? それらをソートする必要がありますか?それとも、この計算では重要ではありませんか?