問題タブ [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2775 参照

php - 調整済みコサイン類似度

PHPで調整済みコサイン類似度をコーディングしようとしています。

私はこのように自分のデータを構築しました:

データ例:

次のように、2 つのアイテムの調整済みコサインを計算する関数を書きたいと思います。

0 投票する
3 に答える
1618 参照

java - Luceneドキュメントの重心との類似度を計算する

Luceneから取得した結果に対して単純なクラスタリングアルゴリズムを実行するには、Luceneの2つのドキュメント間のコサイン類似度を計算する必要があります。また、各クラスターの重心を表す重心ドキュメントを作成できる必要があります。

私が考えることができるのは、TermFreqVectorsとOverall Termの頻度を使用してデータを設定し、tf-idfの重み付けを使用して独自のベクトル空間モデルを構築することだけです。

私の質問は:これは効率的なアプローチではありません、これを行うためのより良い方法はありますか?

これは少し不明瞭に感じるので、質問を改善する方法についての提案もありがたいです。

0 投票する
2 に答える
2942 参照

java - 2 つの文字列から類似した部分文字列を見つける方法

このJavaコードを使用して、同様の文字列を見つけています。

if( str1.indexof(str2) >= 0 || str2.indexof(str1) >= 0 ) .......

しかしstr1 = "pizzabase"str2 = "namedpizzaowl"それは機能しません。

「pizza」などの一般的な部分文字列を見つけるにはどうすればよいですか?

0 投票する
3 に答える
1287 参照

php - 値の類似性の1つに基づいて動的配列をarray_mergeする方法

良い一日、

cURLとさまざまな解析手法を使用して、さまざまなWebサイトから情報を取得しています。必要に応じて、情報をスキャンするWebサイトを追加できるようにコードを作成しました。

取得される情報は次のとおりです:(情報が不正確であり、実際の価格/名前を反映していない可能性があることに注意してください)

必要な出力は次のとおりです。

名前は異なる場合があるため、similar_textを使用する必要があることに注意してください。また、一部の情報がすべてのWebサイトに表示されない場合があります。テレビの名前を1つだけ選択する必要があることは承知しています。次に、最も関連性の高いソース(website1.com)のテレビ名を使用します。

これが私が機能させようとしているコードです。

まず第一に、上記のコードは機能していません。どこかに指を置くことができない論理的なエラーがあるに違いありません。また、リストに3番目のWebサイトを追加した場合でも、コードが機能するとは思われません。

アイデアはありますか?私は今朝からこれに取り組んでいます。

2011-02-16を編集:

私はこの質問に賞金を追加しました。

0 投票する
0 に答える
1567 参照

java - 音声類似ライブラリ

学校のプロジェクト用の音声類似ライブラリのようなものを見つけようとしています。音声ファイルから機能を抽出し、これらに基づいて任意の形式の類似性を推定できる、できれば Python または Java で記述された、単純で十分に文書化されたもの。このコードのようなものでも構いませんが、自分で同様のことを行うスキルがないと思います。「気分抽出器」も私のニーズに合うかもしれません。これは複雑なトピックですが、誰かが私を助けてくれることを願っています.

0 投票する
1 に答える
501 参照

iphone - コサイン類似度スコアを効率的に更新する

私のiPhoneアプリケーションは、次のスキーマを持つSQLiteデータベースを使用しています。

  • items(id、name、...)->このテーブルには50レコードが含まれています
  • tags(id、name)->このテーブルには50レコードが含まれています
  • item_tags(id、item_id、tag_id、user_id)
  • 類似性(id、item1_id、item2_id、score)

アイテム、タグ、item_tags、および類似性テーブルには事前定義されたレコードが入力されているため、異なるアイテム間の類似性もオフラインで計算されています(アイテムのタグに基づくコサイン類似性アルゴリズムを使用)。

ユーザーは、アイテムにタグを追加したり、後でカスタムタグを削除したりできます。これが発生するたびに、アイテム間の類似度スコアをローカルで更新する必要があります。つまり、サーバーアプリケーションに接続する必要はありません。

今の私の質問は次のとおりです:そうするための最も効率的な方法は何ですか?これまでのところ、iPhoneアプリケーションの起動時に、すべてのアイテムとタグの用語ドキュメントマトリックス(各アイテムのタグ頻度を反映)を計算し、アプリケーションが実行されている限り、このマトリックスをメモリに保持します。タグが追加または削除されるたびに、このマトリックスを使用してデータベースの類似性を更新します。ただし、これはかなり非効率的です。何か提案はありますか?

ありがとう!

0 投票する
2 に答える
4708 参照

algorithm - 描かれた線の間の類似性を計算する

2本の線の類似度を数値的に計算するアルゴリズムが必要です。線はマウスを使用して描画され、デカルト座標のセットとして保存されてから、個別のアルゴリズムを使用してフィルタリングおよび平滑化されます。

たとえば、次の図では次のようになります。 ダイアグラム

ラインAとBは明らかに似ていますが、BとCは似ていません。アルゴリズムはこれを反映する必要があります。さらに、始点と終点で示される線の「方向」も重要です。そのようなアルゴリズムはすでに存在しますか?

0 投票する
3 に答える
2302 参照

perl - 2 つの文字列が (perl で) ほぼ等しいかどうかを調べるにはどうすればよいですか?

文字列の配列と比較したい文字列があり、最も一致する配列要素を返します。

各ステップで一致する文字の数をカウントし、最大相関を返すスライディング相関器を作成できます。しかし、より良い方法はありますか?

例:
control_string = drv_probability_1_max

リスト:
burst_period_min/max
デューティ_サイクル_min/max
確率_0_min/max
確率_1_min/max

理想的には「probability_1_min/max」を返す場所

0 投票する
5 に答える
7097 参照

pdf - 重複する PDF を見つける

重複する PDF を見つけるのに役立つユーティリティを探しています。問題: 何千もの PDF ファイルがあります。一部は重複しています。ファイル名が異なり、ファイルサイズがわずかに異なるため、検出するのは簡単ではありません。重複を見つけたり、非常に類似した (または相違度の高い) ファイルを表示したりするのに役立つユーティリティ/アルゴリズム/ライブラリはありますか?

0 投票する
2 に答える
1638 参照

binary - 2 つのバイナリ ファイル間の類似性を測定しますか?

G729 でエンコードされたファイルが 2 つあり、それらの pcm バージョンを使用しました。これら 2 つのファイルの類似性を測定したいと考えています。これらのファイルはバイナリ ファイルであるため、バイナリ ファイル間の類似性を測定する方法として、最初のパターンからパターンを取得し、2 番目のパターンで類似のパターンを検索するコードを C で作成しましたが、類似性を測定したい... . 文献をたくさん検索したところ、jaccard などを見つけましたが、どれが私の場合に適しているかを判断できません。よろしくお願いします..