英語以外の 2 つの文字列が音声的にどのように類似しているかを確認したいのですが、私の知る限り、soundexとmetaphone の実装は、英語ベースの文字列に対してのみ正しく機能します。たとえば、ポルトガル語ではまったく同じように聞こえcoração
ますcorassão
metaphone()
が、 と が返さKR
れKRS
ます。他の音素でも同じことが起こり、chita
とxita
が返さXT
れST
ますが、同じように聞こえます。
このDouble Metaphone の実装( demo )も試しましたが、結果はまったく同じです。
それで、ポルトガル語の単語で動作する代替アルゴリズムはありますか? この他の質問でLuceneについて読んだことがありますが、これまで使用したことがなく、どのように機能するか、またはどのように使用するかわかりません。
そうでない場合、メタフォンのようなアルゴリズムを開発するために収集する必要があるデータの種類を誰か知っていますか?