問題タブ [similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - 空間MySQL機能を使用してテキスト比較(機能ベクトル)を高速化する
2つのテキストのトークン/単語を含む2つの配列を取り、両方のテキスト間の関係を示す余弦類似度値を出力する関数があります。
この関数は、配列$ tokensA(0 => house、1 =>bike、2 => man)と配列$ tokensB(0 =>bike、1 => house、2 => car)を取り、次のような類似性を計算します。浮動小数点値として返されます。
75のテキストを相互に比較する場合、すべてのテキストを相互に比較するには、5,625の単一比較を行う必要があります。
MySQLの空間列を使用して比較の数を減らすことは可能ですか?
自分の機能やテキストの比較方法については話したくありません。比較の数を減らすことについて。
MySQLの空間列
- 次のコマンドで空間列を作成します:CREATE TABLE abc(clmnName TYPE)
- 可能なタイプはここにリストされています
- 後でデータを選択する方法は次のとおりです[例:MultiPointFromText()またはAsText()]
- 次のように値を挿入します。INSERTINTOclmnNameVALUES(GeomFromText('POINT(1 1)'))
しかし、これを私の問題にどのように使用しますか?
PS:この質問のアルゴリズムとの比較の数を減らす方法を探しています。Vinko Vrsalovicは、空間的特徴について別の質問を開く必要があると私に言いました。
copy-paste - ファイルの類似点を示すためのヒント
プロジェクトで、コピーして貼り付けたルールがあるように「においがする」cssファイルをいくつか見つけました。
ファイル内のコピー&ペーストを検出するための戦略は何ですか。
好奇心から、ファイルの類似性を示すためのヒントとコツを聞きたいです。
document - LSA、TFIDF、コサイン メトリック、および言語モデルを比較するためのパッケージ
tfidf、okapi、言語モデル、lsa などのさまざまなメトリックでドキュメント間の類似性テストを実行するために、50 個のドキュメントのコーパスで使用できるパッケージ (実際には任意の言語) を探しています。
結果として、ドキュメントの類似性マトリックスが必要です。つまり、doc1 は doc2 と x% 類似しています。これは研究目的であり、本番用ではありません。これを人間の評価と関連付けたいので、ドキュメントの類似性マトリックスが特に必要です。
前もって感謝します!
algorithm - 多くのページから同様のテキストを取得するには?
多数のテキストから 1 つのテキストに最も類似した x 個のテキストを取得します。
ページをテキストに変更する方が良いかもしれません。
遅すぎるため、テキストをすべてのテキストと比較しないでください。
ruby - 異なる解像度での画像の同等性の検出
元の高解像度の写真を調べて、プロ アカウントを持つ前に Flickr にアップロードした古い低解像度の写真を置き換えるスクリプトを作成しようとしています。
それらの多くでは、日付などの Exif 情報を使用して一致を判断できます。しかし、いくつかは本当に古いもので、元のファイルに Exif 情報がなかったか、当時私が使っていたばかげたサイズ変更ソフトウェアによって上書きされたものです。
そのため、メタデータに頼ることができず、コンテンツ自体に頼らざるを得なくなりました。問題は、オリジナルの解像度が Flickr のものとは異なることです (これがこの取り組みの要点です)。それで、人間の入力を必要とするかどうかのしきい値を設定できるようにする、ある種のあいまいな類似性尺度とそれらを比較する方法はありますか?
1 つの画像が他の画像のサイズ変更されたバージョンであることを知っていると、一般的な類似性よりも優れた結果が得られると思います。どの言語でも解決できますが、Ruby がプラスになります :)
c++ - 画像の自己相似性の高速化
画像を生成するプログラムを書いています。私が望む 1 つの測定値は、画像の「自己相似性」の量です。画像内の sizeWindow * sizeWindow ウィンドウごとに countBest 番目の最適な一致を探す次のコードを作成しました。
良いニュースは、アルゴリズムが私が望んでいることを実行することです。画像がどの程度「自己相似」しているかについて、0.0 から 1.0 までの値を返します。
悪いニュースは、既にお気付きだと思いますが、アルゴリズムが非常に遅いことです。実行するには(k_maxX - sizeWindow) * (k_maxY - sizeWindow) * (k_maxX - sizeWindow) * (k_maxY - sizeWindow) * sizeWindow * sizeWindow
手順が必要です。
変数の典型的な値:
今のところ、pvecount が消費するメモリ フットプリントについては心配していません。後で、countBest より小さい場合に別の要素を追加しない、並べ替えられたデータ セットを使用できます。アルゴリズムの速度だけが心配です。
どうすればこれをスピードアップできますか?
python - 投票に基づくユーザー間の類似性
一連のユーザー、一連の曲、および各曲に対する一連の投票があるとしましょう:
歌の投票に基づいてユーザーの類似性を計算する最も効率的な方法は何ですか? すべてのユーザーとすべての曲のすべての投票を繰り返すよりも良い方法はありますか?
lucene - Luceneの2つのドキュメント間のコサイン類似度を取得する
Luceneでインデックスを作成しました。クエリを指定せずに、インデックス内の2つのドキュメント間のスコア(コサイン類似度または別の距離?)を取得したいだけです。
たとえば、以前に開いたIndexReaderirからID2および4のドキュメントを取得しています。Documentd1= ir.document(2); ドキュメントd2=ir.document(4);
これら2つのドキュメント間の余弦の類似性を取得するにはどうすればよいですか?
ありがとうございました
python - タグに基づく投稿間のユークリッド距離
私は、プログラミング集団知能の本のユークリッド距離の例で遊んでいます。
これは、映画評論家をランク付けするための元のコードです。これを変更して、タグに基づいて同様の投稿を見つけようとしています。次のようなマップを作成します。
しかし、これを関数に適用すると、
これは 0 になり、タグには重みがありません。同じタグにはランキング 1 があります。コードを変更して手動で違いを作成し、テストしました。
それから私は0.5の類似度をたくさん得ましたが、それ自身への同じ投稿の類似度は0.3に落ちました。自分の状況にユークリッド距離を適用する方法が思いつきませんか?
algorithm - 高速類似性検出
オブジェクトの大規模なコレクションがあり、それらの間の類似点を把握する必要があります。
正確に言うと、2 つのオブジェクトが与えられた場合、それらの非類似度を数値 (メトリック) として計算できます。値が大きいほど類似度が低くなり、0 はオブジェクトの内容が同一であることを意味します。この数値を計算するコストは、小さいオブジェクトのサイズに比例します (各オブジェクトには特定のサイズがあります)。
オブジェクトが与えられた場合、それに類似したオブジェクトのセットをすばやく見つける機能が必要です。
正確に言うと、任意のオブジェクト o を、d よりも o に似ていないオブジェクトのセットにマップするデータ構造を作成する必要があります。配列またはリンクされたリストにありました(そしておそらく実際にそうです)。通常、セットはオブジェクトの総数よりもはるかに小さいため、この計算を実行することは非常に価値があります。データ構造が固定の d を想定していれば十分ですが、任意の d で機能する場合はさらに優れています。
以前にこの問題、またはそれに類似した問題を見たことがありますか? 良い解決策は何ですか?
正確に言うと、単純な解決策には、オブジェクトのすべてのペア間の非類似度を計算することが含まれますが、これは時間がかかります - O(n 2 ) ここで、n はオブジェクトの数です。複雑さの低い一般的なソリューションはありますか?