ウィキペディアの記事は、用語がかなり緩いです。「自然言語」には「文字列」などはありません。書かれた文字と文字の組み合わせで表すことができる自然言語の音素があります。
一部の文字の組み合わせは、「gh」が-f-のように聞こえるか、まったく音が出ない現代英語の「ラフ」のように、現代に生き残った歴史的慣習の痕跡です。生の「文字列」に焦点を当てる場合、アルゴリズムは言語と正投影の慣習の歴史的関係にとらわれないようにする必要があります。これにより、文字の組み合わせが単一の音素に相関する場合は常に、任意のメトリックが得られます。「ラフ」から「ラフ」までをどのように測定しますか?または「スルー」から「スルー」へ?または「oe」へのドイツ語のo-umlaut?
あなたの場合、-y-は音声的および正統的に-ij-と交換することができます。では、アルゴリズムによれば、2つの削除とそれに続く挿入、または-j-または-i-の1つの削除と、それに続く残りの文字の-y-への転置とは何でしょうか。または、-ij-が合体し、合体の後に移調が続きますか?
アルゴリズムを適用する前に、-ij-に別の未使用の組み合わせ文字を使用することをお勧めします。おそらくU00EC、アクサングラーブ付きのラテン小文字iです。
アルゴリズムはマルチコードポイント文字をどのように処理しますか?