問題タブ [similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 調整済みコサイン類似度
PHPで調整済みコサイン類似度をコーディングしようとしています。
私はこのように自分のデータを構築しました:
データ例:
次のように、2 つのアイテムの調整済みコサインを計算する関数を書きたいと思います。
java - Luceneドキュメントの重心との類似度を計算する
Luceneから取得した結果に対して単純なクラスタリングアルゴリズムを実行するには、Luceneの2つのドキュメント間のコサイン類似度を計算する必要があります。また、各クラスターの重心を表す重心ドキュメントを作成できる必要があります。
私が考えることができるのは、TermFreqVectorsとOverall Termの頻度を使用してデータを設定し、tf-idfの重み付けを使用して独自のベクトル空間モデルを構築することだけです。
私の質問は:これは効率的なアプローチではありません、これを行うためのより良い方法はありますか?
これは少し不明瞭に感じるので、質問を改善する方法についての提案もありがたいです。
java - 2 つの文字列から類似した部分文字列を見つける方法
このJavaコードを使用して、同様の文字列を見つけています。
if( str1.indexof(str2) >= 0 || str2.indexof(str1) >= 0 ) .......
しかしstr1 = "pizzabase"
、str2 = "namedpizzaowl"
それは機能しません。
「pizza」などの一般的な部分文字列を見つけるにはどうすればよいですか?
php - 値の類似性の1つに基づいて動的配列をarray_mergeする方法
良い一日、
cURLとさまざまな解析手法を使用して、さまざまなWebサイトから情報を取得しています。必要に応じて、情報をスキャンするWebサイトを追加できるようにコードを作成しました。
取得される情報は次のとおりです:(情報が不正確であり、実際の価格/名前を反映していない可能性があることに注意してください)
必要な出力は次のとおりです。
名前は異なる場合があるため、similar_textを使用する必要があることに注意してください。また、一部の情報がすべてのWebサイトに表示されない場合があります。テレビの名前を1つだけ選択する必要があることは承知しています。次に、最も関連性の高いソース(website1.com)のテレビ名を使用します。
これが私が機能させようとしているコードです。
まず第一に、上記のコードは機能していません。どこかに指を置くことができない論理的なエラーがあるに違いありません。また、リストに3番目のWebサイトを追加した場合でも、コードが機能するとは思われません。
アイデアはありますか?私は今朝からこれに取り組んでいます。
2011-02-16を編集:
私はこの質問に賞金を追加しました。
java - 音声類似ライブラリ
学校のプロジェクト用の音声類似ライブラリのようなものを見つけようとしています。音声ファイルから機能を抽出し、これらに基づいて任意の形式の類似性を推定できる、できれば Python または Java で記述された、単純で十分に文書化されたもの。このコードのようなものでも構いませんが、自分で同様のことを行うスキルがないと思います。「気分抽出器」も私のニーズに合うかもしれません。これは複雑なトピックですが、誰かが私を助けてくれることを願っています.
iphone - コサイン類似度スコアを効率的に更新する
私のiPhoneアプリケーションは、次のスキーマを持つSQLiteデータベースを使用しています。
- items(id、name、...)->このテーブルには50レコードが含まれています
- tags(id、name)->このテーブルには50レコードが含まれています
- item_tags(id、item_id、tag_id、user_id)
- 類似性(id、item1_id、item2_id、score)
アイテム、タグ、item_tags、および類似性テーブルには事前定義されたレコードが入力されているため、異なるアイテム間の類似性もオフラインで計算されています(アイテムのタグに基づくコサイン類似性アルゴリズムを使用)。
ユーザーは、アイテムにタグを追加したり、後でカスタムタグを削除したりできます。これが発生するたびに、アイテム間の類似度スコアをローカルで更新する必要があります。つまり、サーバーアプリケーションに接続する必要はありません。
今の私の質問は次のとおりです:そうするための最も効率的な方法は何ですか?これまでのところ、iPhoneアプリケーションの起動時に、すべてのアイテムとタグの用語ドキュメントマトリックス(各アイテムのタグ頻度を反映)を計算し、アプリケーションが実行されている限り、このマトリックスをメモリに保持します。タグが追加または削除されるたびに、このマトリックスを使用してデータベースの類似性を更新します。ただし、これはかなり非効率的です。何か提案はありますか?
ありがとう!
algorithm - 描かれた線の間の類似性を計算する
2本の線の類似度を数値的に計算するアルゴリズムが必要です。線はマウスを使用して描画され、デカルト座標のセットとして保存されてから、個別のアルゴリズムを使用してフィルタリングおよび平滑化されます。
たとえば、次の図では次のようになります。
ラインAとBは明らかに似ていますが、BとCは似ていません。アルゴリズムはこれを反映する必要があります。さらに、始点と終点で示される線の「方向」も重要です。そのようなアルゴリズムはすでに存在しますか?
perl - 2 つの文字列が (perl で) ほぼ等しいかどうかを調べるにはどうすればよいですか?
文字列の配列と比較したい文字列があり、最も一致する配列要素を返します。
各ステップで一致する文字の数をカウントし、最大相関を返すスライディング相関器を作成できます。しかし、より良い方法はありますか?
例:
control_string = drv_probability_1_max
リスト:
burst_period_min/max
デューティ_サイクル_min/max
確率_0_min/max
確率_1_min/max
理想的には「probability_1_min/max」を返す場所
pdf - 重複する PDF を見つける
重複する PDF を見つけるのに役立つユーティリティを探しています。問題: 何千もの PDF ファイルがあります。一部は重複しています。ファイル名が異なり、ファイルサイズがわずかに異なるため、検出するのは簡単ではありません。重複を見つけたり、非常に類似した (または相違度の高い) ファイルを表示したりするのに役立つユーティリティ/アルゴリズム/ライブラリはありますか?
binary - 2 つのバイナリ ファイル間の類似性を測定しますか?
G729 でエンコードされたファイルが 2 つあり、それらの pcm バージョンを使用しました。これら 2 つのファイルの類似性を測定したいと考えています。これらのファイルはバイナリ ファイルであるため、バイナリ ファイル間の類似性を測定する方法として、最初のパターンからパターンを取得し、2 番目のパターンで類似のパターンを検索するコードを C で作成しましたが、類似性を測定したい... . 文献をたくさん検索したところ、jaccard などを見つけましたが、どれが私の場合に適しているかを判断できません。よろしくお願いします..