“jaro-winkler”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

4621 参照

c# - .NETのジャロウィンクラー距離アルゴリズム

.NETでのジャロウィンクラー距離のLGPLまたは商用に適したライセンス実装はありますか？

c#.net jaro-winkler

2009-10-02T16:25:23.130

0 投票する

3 に答える

3135 参照

python - winkler の Python パフォーマンス改善リクエスト

私は python n00b です。2 つの名前の Jaro-Winkler 距離を計算するこのメソッドのパフォーマンスを向上させるために、アルゴリズムを改善する方法についていくつか提案をお願いします。

出力例

python optimization performance jaro-winkler

2010-04-30T01:53:51.047

0 投票する

2 に答える

1015 参照

android - ジャロ・ウィンクラー距離アルゴリズムを使用して順序付けを行っていますか？

この方法でSQLiteオーダーを実行するにはどうすればよいのでしょうか。

Androidにはユーザー定義関数のボトルネックがあることを知っていますが、代替手段はありますか？

android sqlite sql-order-by jaro-winkler

2010-05-17T08:33:58.733

0 投票する

6 に答える

11754 参照

java - ジャロ・ウィンクラーアルゴリズムの最適化

このWebサイトから取得したJaro-Winklerアルゴリズムのこのコードがあります。違いの間の距離を取得するには、150,000回実行する必要があります。Androidモバイルデバイスで実行しているため、時間がかかります。

もっと最適化できますか？

プロセス全体で、スクリプトのインスタンスを作成するだけなので、一度だけ作成します。

スクリプトを壊さないようにテストして例が必要な場合は、Python最適化の別のスレッドでここにあります。

java algorithm optimization jaro-winkler

2010-05-17T12:01:15.363

0 投票する

0 に答える

711 参照

sqlite - SQLite のロード可能な拡張機能としての Jarowinkler

だれかが Jarowinkler 関数を SQLite のロード可能な拡張機能として実装したかどうか疑問に思っていました。

「SQLite-Levenshtein」に相当するものを探しています。Mateusz Adamowski による SQLite ロード可能な拡張機能としてのレーベンステハイン距離の優れた実装

https://github.com/mateusza/SQLite-Levenshtein

前もって感謝します

sqlite levenshtein-distance jaro-winkler

2011-07-05T13:41:32.190

0 投票する

3 に答える

5162 参照

sas - SAS の Jaro-Winkler 文字列比較関数

SASにJaro-Winkler文字列比較の実装はありますか?

Link Kingには Jaro-Winkler があるようですが、関数を自分で呼び出す柔軟性が欲しいです。

ありがとう！

sas jaro-winkler

2011-07-28T20:07:44.467

0 投票する

2 に答える

19098 参照

levenshtein-distance - 類似度アルゴリズムの比較

文字列類似関数を使用して、データベース内の破損したデータを見つけたいと考えています。

私はそれらのいくつかに出くわしました：

ジャロ、
ジャロ・ウィンクラー
レーベンシュタイン、
ユークリッドと
Qグラム、

それらの違いと、どのような状況で最も効果的かを知りたかったのです。

levenshtein-distance similarity euclidean-distance jaro-winkler

2012-03-23T15:43:05.083

0 投票する

1 に答える

371 参照

nlp - NLP - ファジー文字列マッチングの実行時間とリコールの改善

動作するアルゴリズムを作成しましたが、実行時間は非常にひどいものです。はい、私はそれが恐ろしいことになることを最初から知っていますが、それほどではありません. わずか 200000 レコードの場合、プログラムは 1 時間以上実行されます。

基本的に私がやっていることは次のとおりです。

はい、このコードは非常にループに適しています。リコールが非常に重要であるため、私は総当たりを使用しています。だから、何百万ものデータの200000データに対して実行しているだけでなく、クライアントのコンピューターがハイエンドではないため、どうすれば高速化できるのでしょうか。このプログラムをテストするコンピューターは、4 GB の RAM を搭載したデュアルコアです)。TF/IDF に出会いましたが、それで十分かどうかはわかりません。どうすればグーグルはリアルタイムで検索できるのだろうか。

前もって感謝します！

編集：このプログラムはデータフィルターです。200,000 個のダミーデータ (実際のデータは約 12M です) から、サンプルに関係のないデータをフィルタリングする必要があります (500 個のダミーサンプル、実際のサンプルの量はまだわかりません)。

与えられたダミーデータとサンプルでは、実行時間は約 1 時間ですが、あちこちいじくり回した後、10 ～ 15 分に短縮することに成功しました。同じ文字で始まるフィールドとサンプルをグループ化し (the、a、an などの特別で意味のない単語を割り引いて)、同じ最初の文字でフィールドをサンプルに一致させることで、それを軽減しました。そこに問題があることはわかっています。フィールドの最初の文字のスペルが間違っていた場合はどうなりますか? しかし、その数はごくわずかだと思います。サンプルは常に維持されているため、正しいスペルになっています。

nlp fuzzy-search tf-idf jaro-winkler

2012-04-24T01:33:28.577

0 投票する

1 に答える

606 参照

c - Text :: JaroWinkler :: strcmp95の3番目のパラメーターは何ですか？

2つの文字列間の距離（または類似性）を計算するためにPerlで記述されたJaro-Winklerモジュールに興味があります。

http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm

関数の構文は私にはわかりません。私はそれの明確な文書を見つけることができませんでした。

サンプルコードは次のとおりです。

11は正確に何を表していますか？長さだと思います。どの長さですか？チェックしたい文字数の長さは？そこにいる必要がありますか？

c string perl perl-module jaro-winkler

2013-02-22T01:18:48.380

0 投票する

1 に答える

642 参照

perl - Perl で Jaro-Winkler スコアを解釈する -- Stata に代替手段はありますか?

2 つの文字列が類似している可能性が高いと判断するために、Jaro-Winkler スコアがどれくらい大きくなければならないかについての業界標準はありますか?

文字列のリストがあり、それらの中に James という名前のタイプミスがあるかどうかを確認したいと考えています。私は C で書かれた perl モジュールを使用しました。これは、stata のデータセットから受け取った文字列です。(だから Stata モジュールがあれば、私はすべての耳になります!)

文字列 James と比較するためにこれまでに perl で書いたコードを次に示します。

また、Jaro-Winkler 関数の 3 番目のパラメーターを適切に、または効果的に解釈しているかどうかもわかりません。おそらく、 length('JAMES') を実行する必要がありますか?

perl statistics stata jaro-winkler

2013-02-22T15:52:45.013

問題タブ [jaro-winkler]

Reference