問題タブ [jaro-winkler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4621 参照

c# - .NETのジャロウィンクラー距離アルゴリズム

.NETでのジャロウィンクラー距離のLGPLまたは商用に適したライセンス実装はありますか?

0 投票する
3 に答える
3135 参照

python - winkler の Python パフォーマンス改善リクエスト

私は python n00b です。2 つの名前の Jaro-Winkler 距離を計算するこのメソッドのパフォーマンスを向上させるために、アルゴリズムを改善する方法についていくつか提案をお願いします。

出力例

0 投票する
2 に答える
1015 参照

android - ジャロ・ウィンクラー距離アルゴリズムを使用して順序付けを行っていますか?

この方法でSQLiteオーダーを実行するにはどうすればよいのでしょうか。

Androidにはユーザー定義関数のボトルネックがあることを知っていますが、代替手段はありますか?

0 投票する
6 に答える
11754 参照

java - ジャロ・ウィンクラーアルゴリズムの最適化

このWebサイトから取得したJaro-Winklerアルゴリズムのこのコードがあります。違いの間の距離を取得するには、150,000回実行する必要があります。Androidモバイルデバイスで実行しているため、時間がかかります。

もっと最適化できますか?

プロセス全体で、スクリプトのインスタンスを作成するだけなので、一度だけ作成します。

スクリプトを壊さないようにテストして例が必要な場合は、Python最適化の別のスレッドでここにあります。

0 投票する
0 に答える
711 参照

sqlite - SQLite のロード可能な拡張機能としての Jarowinkler

だれかが Jarowinkler 関数を SQLite のロード可能な拡張機能として実装したかどうか疑問に思っていました。

「SQLite-Levenshtein」に相当するものを探しています。Mateusz Adamowski による SQLite ロード可能な拡張機能としてのレーベンステハイン距離の優れた実装

https://github.com/mateusza/SQLite-Levenshtein

前もって感謝します

0 投票する
3 に答える
5162 参照

sas - SAS の Jaro-Winkler 文字列比較関数

SASにJaro-Winkler文字列比較の実装はありますか?

Link Kingには Jaro-Winkler があるようですが、関数を自分で呼び出す柔軟性が欲しいです。

ありがとう!

0 投票する
2 に答える
19098 参照

levenshtein-distance - 類似度アルゴリズムの比較

文字列類似関数を使用して、データベース内の破損したデータを見つけたいと考えています。

私はそれらのいくつかに出くわしました:

  • ジャロ、
  • ジャロ・ウィンクラー
  • レーベンシュタイン、
  • ユークリッドと
  • Qグラム、

それらの違いと、どのような状況で最も効果的かを知りたかったのです。

0 投票する
1 に答える
371 参照

nlp - NLP - ファジー文字列マッチングの実行時間とリコールの改善

動作するアルゴリズムを作成しましたが、実行時間は非常にひどいものです。はい、私はそれが恐ろしいことになることを最初から知っていますが、それほどではありません. わずか 200000 レコードの場合、プログラムは 1 時間以上実行されます。

基本的に私がやっていることは次のとおりです。

はい、このコードは非常にループに適しています。リコールが非常に重要であるため、私は総当たりを使用しています。だから、何百万ものデータの200000データに対して実行しているだけでなく、クライアントのコンピューターがハイエンドではないため、どうすれば高速化できるのでしょうか。このプログラムをテストするコンピューターは、4 GB の RAM を搭載したデュアル コアです)。TF/IDF に出会いましたが、それで十分かどうかはわかりません。どうすればグーグルはリアルタイムで検索できるのだろうか。

前もって感謝します!

編集:このプログラムはデータフィルターです。200,000 個のダミー データ (実際のデータは約 12M です) から、サンプルに関係のないデータをフィルタリングする必要があります (500 個のダミー サンプル、実際のサンプルの量はまだわかりません)。

与えられたダミーデータとサンプルでは、​​実行時間は約 1 時間ですが、あちこちいじくり回した後、10 ~ 15 分に短縮することに成功しました。同じ文字で始まるフィールドとサンプルをグループ化し (the、a、an などの特別で意味のない単語を割り引いて)、同じ最初の文字でフィールドをサンプルに一致させることで、それを軽減しました。そこに問題があることはわかっています。フィールドの最初の文字のスペルが間違っていた場合はどうなりますか? しかし、その数はごくわずかだと思います。サンプルは常に維持されているため、正しいスペルになっています。

0 投票する
1 に答える
606 参照

c - Text :: JaroWinkler :: strcmp95の3番目のパラメーターは何ですか?

2つの文字列間の距離(または類似性)を計算するためにPerlで記述されたJaro-Winklerモジュールに興味があります。

http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm

関数の構文は私にはわかりません。私はそれの明確な文書を見つけることができませんでした。

サンプルコードは次のとおりです。

11は正確に何を表していますか?長さだと思います。どの長さですか?チェックしたい文字数の長さは?そこにいる必要がありますか?

0 投票する
1 に答える
642 参照

perl - Perl で Jaro-Winkler スコアを解釈する -- Stata に代替手段はありますか?

2 つの文字列が類似している可能性が高いと判断するために、Jaro-Winkler スコアがどれくらい大きくなければならないかについての業界標準はありますか?

文字列のリストがあり、それらの中に James という名前のタイプミスがあるかどうかを確認したいと考えています。私は C で書かれた perl モジュールを使用しました。これは、stata のデータセットから受け取った文字列です。(だから Stata モジュールがあれば、私はすべての耳になります!)

文字列 James と比較するためにこれまでに perl で書いたコードを次に示します。

また、Jaro-Winkler 関数の 3 番目のパラメーターを適切に、または効果的に解釈しているかどうかもわかりません。おそらく、 length('JAMES') を実行する必要がありますか?