2 つの文字列が類似している可能性が高いと判断するために、Jaro-Winkler スコアがどれくらい大きくなければならないかについての業界標準はありますか?
文字列のリストがあり、それらの中に James という名前のタイプミスがあるかどうかを確認したいと考えています。私は C で書かれた perl モジュールを使用しました。これは、stata のデータセットから受け取った文字列です。(だから Stata モジュールがあれば、私はすべての耳になります!)
文字列 James と比較するためにこれまでに perl で書いたコードを次に示します。
#!/usr/bin/perl
use 5.10.0;
use Text::JaroWinkler qw( strcmp95 );
use List::Util qw(min max);
open( my $l, '<', 'Strings.txt' ) or die "Can't open locations: $!";
open( my $o, '>', 'JW.txt' ) or die "Can't open locations: $!";
while ( my $line = <$l> ) {
chomp($line);
my $length = min(length($line),length('James'));
my $jarow = strcmp95($line, 'JAMES', $length);
print "$line,'JAMES',$jarow,\n" ;
print( $o ("$line,'JAMES',$jarow"),"\n" );
}
close $o;
また、Jaro-Winkler 関数の 3 番目のパラメーターを適切に、または効果的に解釈しているかどうかもわかりません。おそらく、 length('JAMES') を実行する必要がありますか?