問題タブ [jaro-winkler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - .NETのジャロウィンクラー距離アルゴリズム
.NETでのジャロウィンクラー距離のLGPLまたは商用に適したライセンス実装はありますか?
python - winkler の Python パフォーマンス改善リクエスト
私は python n00b です。2 つの名前の Jaro-Winkler 距離を計算するこのメソッドのパフォーマンスを向上させるために、アルゴリズムを改善する方法についていくつか提案をお願いします。
出力例
android - ジャロ・ウィンクラー距離アルゴリズムを使用して順序付けを行っていますか?
この方法でSQLiteオーダーを実行するにはどうすればよいのでしょうか。
Androidにはユーザー定義関数のボトルネックがあることを知っていますが、代替手段はありますか?
sqlite - SQLite のロード可能な拡張機能としての Jarowinkler
だれかが Jarowinkler 関数を SQLite のロード可能な拡張機能として実装したかどうか疑問に思っていました。
「SQLite-Levenshtein」に相当するものを探しています。Mateusz Adamowski による SQLite ロード可能な拡張機能としてのレーベンステハイン距離の優れた実装
https://github.com/mateusza/SQLite-Levenshtein
前もって感謝します
levenshtein-distance - 類似度アルゴリズムの比較
文字列類似関数を使用して、データベース内の破損したデータを見つけたいと考えています。
私はそれらのいくつかに出くわしました:
- ジャロ、
- ジャロ・ウィンクラー
- レーベンシュタイン、
- ユークリッドと
- Qグラム、
それらの違いと、どのような状況で最も効果的かを知りたかったのです。
nlp - NLP - ファジー文字列マッチングの実行時間とリコールの改善
動作するアルゴリズムを作成しましたが、実行時間は非常にひどいものです。はい、私はそれが恐ろしいことになることを最初から知っていますが、それほどではありません. わずか 200000 レコードの場合、プログラムは 1 時間以上実行されます。
基本的に私がやっていることは次のとおりです。
はい、このコードは非常にループに適しています。リコールが非常に重要であるため、私は総当たりを使用しています。だから、何百万ものデータの200000データに対して実行しているだけでなく、クライアントのコンピューターがハイエンドではないため、どうすれば高速化できるのでしょうか。このプログラムをテストするコンピューターは、4 GB の RAM を搭載したデュアル コアです)。TF/IDF に出会いましたが、それで十分かどうかはわかりません。どうすればグーグルはリアルタイムで検索できるのだろうか。
前もって感謝します!
編集:このプログラムはデータフィルターです。200,000 個のダミー データ (実際のデータは約 12M です) から、サンプルに関係のないデータをフィルタリングする必要があります (500 個のダミー サンプル、実際のサンプルの量はまだわかりません)。
与えられたダミーデータとサンプルでは、実行時間は約 1 時間ですが、あちこちいじくり回した後、10 ~ 15 分に短縮することに成功しました。同じ文字で始まるフィールドとサンプルをグループ化し (the、a、an などの特別で意味のない単語を割り引いて)、同じ最初の文字でフィールドをサンプルに一致させることで、それを軽減しました。そこに問題があることはわかっています。フィールドの最初の文字のスペルが間違っていた場合はどうなりますか? しかし、その数はごくわずかだと思います。サンプルは常に維持されているため、正しいスペルになっています。
c - Text :: JaroWinkler :: strcmp95の3番目のパラメーターは何ですか?
2つの文字列間の距離(または類似性)を計算するためにPerlで記述されたJaro-Winklerモジュールに興味があります。
http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm
関数の構文は私にはわかりません。私はそれの明確な文書を見つけることができませんでした。
サンプルコードは次のとおりです。
11は正確に何を表していますか?長さだと思います。どの長さですか?チェックしたい文字数の長さは?そこにいる必要がありますか?
perl - Perl で Jaro-Winkler スコアを解釈する -- Stata に代替手段はありますか?
2 つの文字列が類似している可能性が高いと判断するために、Jaro-Winkler スコアがどれくらい大きくなければならないかについての業界標準はありますか?
文字列のリストがあり、それらの中に James という名前のタイプミスがあるかどうかを確認したいと考えています。私は C で書かれた perl モジュールを使用しました。これは、stata のデータセットから受け取った文字列です。(だから Stata モジュールがあれば、私はすべての耳になります!)
文字列 James と比較するためにこれまでに perl で書いたコードを次に示します。
また、Jaro-Winkler 関数の 3 番目のパラメーターを適切に、または効果的に解釈しているかどうかもわかりません。おそらく、 length('JAMES') を実行する必要がありますか?