22

この音訳を適切に行うための良い解決策はありますか?

を使ってみましiconv()たが、とても煩わしく、思ったように動作しません。

  • を使用//TRANSLITすると、可能なものを置き換えようとし、すべてを「?」として変換できなくなります。
  • 使用//IGNOREすると「?」が残りません テキストではありますが、音訳せず、変換不可能E_NOTICEな文字が見つかった場合にも発生するため、@エラーサプレッサーでiconvを使用する必要があります
  • //IGNORE//TRANSLIT(PHPフォーラムで提案されているように)使用することは、実際には//IGNORE(phpバージョン5.3.2および5.3.13で自分で試した)と同じです。
  • 使用//TRANSLIT//IGNOREも同じです//TRANSLIT

また、現在のロケール設定を使用して音訳します。

警告-多くのテキストとコードが続いています!

ここではいくつかの例を示します。

$text = 'Regular ascii text + čćžšđ + äöüß + éĕěėëȩ + æø€ + $ + ¶ + @';
echo '<br />original: ' . $text;
echo '<br />regular: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> regular: Regular ascii text + ????? + ???ss + ?????? + ae?EUR + $ + ? + @

setlocale(LC_ALL, 'en_GB');
echo '<br />en_GB: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> en_GB: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

setlocale(LC_ALL, 'en_GB.UTF8'); // will this work?
echo '<br />en_GB.UTF8: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> en_GB.UTF8: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

わかりました、それはčćšäöüßéĕěėëȩとæを変換しましたが、なぜđとøではないのですか?

// now specific locales
setlocale(LC_ALL, 'hr_Hr'); // this should fix croatian đ, right?
echo '<br />hr_Hr: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
// wrong > hr_Hr: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

setlocale(LC_ALL, 'sv_SE'); // so this will fix swedish ø?
echo '<br />sv_SE: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
// will not > sv_SE: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

//this is interesting
setlocale(LC_ALL, 'de_DE');
echo '<br />de_DE: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> de_DE: Regular ascii text + cczs? + aeoeuess + eeeeee + ae?EUR + $ + ? + @
// actually this is what any german would expect since ä ö ü really is same as ae oe ue

試してみましょう//IGNORE

echo '<br />ignore: ' . iconv("UTF-8", "ASCII//IGNORE", $text);
//> ignore: Regular ascii text + + + + + $ + + @
//+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 49"

// with translit?
echo '<br />ignore/translit: ' . iconv("UTF-8", "ASCII//IGNORE//TRANSLIT", $text);
//same as ignore only> ignore/translit: Regular ascii text + + + + + $ + + @
//+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 54"

// translit/ignore?
echo '<br />translit/ignore: ' . iconv("UTF-8", "ASCII//TRANSLIT//IGNORE", $text);
//same as translit only> translit/ignore: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

この男のソリューションを使用しても、期待どおりに機能しません:Regular ascii text + YYYYY + aous + eYYYeY + aoY + $ + � + @

PECL intl Normalizerクラスを使用しても(PHP> 5.3.0を使用している場合でも、常に使用できるとは限りません。ICUパッケージintlが使用するPHPは、特定のホスティングサーバーでは使用できない場合があるため)、間違った結果が生成されます。

echo '<br />normalize: ' .preg_replace('/\p{Mn}/u', '', Normalizer::normalize($text, Normalizer::FORM_KD));
//>normalize: Regular ascii text + cczsđ + aouß + eeeeee + æø€ + $ + ¶ + @

それで、これを正しく行う他の方法はありますか、または行うべき唯一の適切なことは、音訳テーブルを自分で行うpreg_replace()か、定義することですか?str_replace()

//付録:2008年のZF wikiの討論で、Zend_Filter_Transliterateの提案について見つけましたが、一部の言語(つまり中国語)では変換できないため、プロジェクトは中止されましたが、ラテン語およびシリルベースの言語IMOではこのオプションが使用されます存在する必要があります。

4

6 に答える 6

10

Patchwork \ Utf8のtoAscii()関数は、まさにこれを実行します。以下を参照してください。

https://github.com/nicolas-grekas/Patchwork-UTF8/blob/master/src/Patchwork/Utf8.php

iconvとintlのノーマライザーを利用して、アクセントを削除したり、合字を分割したり、その他の多くの一般的な音訳を実行したりします。

于 2013-11-14T15:48:54.613 に答える
5

このウェブサイトから、私はあなたを助けるかもしれない何かを見つけました:

function removeAccents($str)
{
  $a = array('À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Î', 'Ï', 'Ð', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'Ý', 'ß', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'ÿ', 'Ā', 'ā', 'Ă', 'ă', 'Ą', 'ą', 'Ć', 'ć', 'Ĉ', 'ĉ', 'Ċ', 'ċ', 'Č', 'č', 'Ď', 'ď', 'Đ', 'đ', 'Ē', 'ē', 'Ĕ', 'ĕ', 'Ė', 'ė', 'Ę', 'ę', 'Ě', 'ě', 'Ĝ', 'ĝ', 'Ğ', 'ğ', 'Ġ', 'ġ', 'Ģ', 'ģ', 'Ĥ', 'ĥ', 'Ħ', 'ħ', 'Ĩ', 'ĩ', 'Ī', 'ī', 'Ĭ', 'ĭ', 'Į', 'į', 'İ', 'ı', 'IJ', 'ij', 'Ĵ', 'ĵ', 'Ķ', 'ķ', 'Ĺ', 'ĺ', 'Ļ', 'ļ', 'Ľ', 'ľ', 'Ŀ', 'ŀ', 'Ł', 'ł', 'Ń', 'ń', 'Ņ', 'ņ', 'Ň', 'ň', 'ʼn', 'Ō', 'ō', 'Ŏ', 'ŏ', 'Ő', 'ő', 'Œ', 'œ', 'Ŕ', 'ŕ', 'Ŗ', 'ŗ', 'Ř', 'ř', 'Ś', 'ś', 'Ŝ', 'ŝ', 'Ş', 'ş', 'Š', 'š', 'Ţ', 'ţ', 'Ť', 'ť', 'Ŧ', 'ŧ', 'Ũ', 'ũ', 'Ū', 'ū', 'Ŭ', 'ŭ', 'Ů', 'ů', 'Ű', 'ű', 'Ų', 'ų', 'Ŵ', 'ŵ', 'Ŷ', 'ŷ', 'Ÿ', 'Ź', 'ź', 'Ż', 'ż', 'Ž', 'ž', 'ſ', 'ƒ', 'Ơ', 'ơ', 'Ư', 'ư', 'Ǎ', 'ǎ', 'Ǐ', 'ǐ', 'Ǒ', 'ǒ', 'Ǔ', 'ǔ', 'Ǖ', 'ǖ', 'Ǘ', 'ǘ', 'Ǚ', 'ǚ', 'Ǜ', 'ǜ', 'Ǻ', 'ǻ', 'Ǽ', 'ǽ', 'Ǿ', 'ǿ');
  $b = array('A', 'A', 'A', 'A', 'A', 'A', 'AE', 'C', 'E', 'E', 'E', 'E', 'I', 'I', 'I', 'I', 'D', 'N', 'O', 'O', 'O', 'O', 'O', 'O', 'U', 'U', 'U', 'U', 'Y', 's', 'a', 'a', 'a', 'a', 'a', 'a', 'ae', 'c', 'e', 'e', 'e', 'e', 'i', 'i', 'i', 'i', 'n', 'o', 'o', 'o', 'o', 'o', 'o', 'u', 'u', 'u', 'u', 'y', 'y', 'A', 'a', 'A', 'a', 'A', 'a', 'C', 'c', 'C', 'c', 'C', 'c', 'C', 'c', 'D', 'd', 'D', 'd', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'G', 'g', 'G', 'g', 'G', 'g', 'G', 'g', 'H', 'h', 'H', 'h', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'IJ', 'ij', 'J', 'j', 'K', 'k', 'L', 'l', 'L', 'l', 'L', 'l', 'L', 'l', 'l', 'l', 'N', 'n', 'N', 'n', 'N', 'n', 'n', 'O', 'o', 'O', 'o', 'O', 'o', 'OE', 'oe', 'R', 'r', 'R', 'r', 'R', 'r', 'S', 's', 'S', 's', 'S', 's', 'S', 's', 'T', 't', 'T', 't', 'T', 't', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'W', 'w', 'Y', 'y', 'Y', 'Z', 'z', 'Z', 'z', 'Z', 'z', 's', 'f', 'O', 'o', 'U', 'u', 'A', 'a', 'I', 'i', 'O', 'o', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'A', 'a', 'AE', 'ae', 'O', 'o');
  return str_replace($a, $b, $str);
}

使用例:

$text = 'Regular ascii text + čćžšđ + äöüß + éĕěėëȩ + æø€ + $ + ¶ + @';
echo removeAccents($text);

表示:

Regular ascii text + cczsd + aous + eeeeeȩ + aeo€ + $ + ¶ + @

あなたはそれを改善する必要があるでしょう、しかしあなたは考えを理解します...そのような仕事をする直接的な方法があるならば、私はそれを知りません。

于 2012-11-28T21:41:45.167 に答える
2

適切なロケールを設定することが道のりだと思います。特定のロケールもシステムで使用可能である必要があることに注意してください。を使用して確認してくださいlocale -a。持っているだけの場合de_DE.utf8-また、set_locale(de_DE.utf8)を使用する必要があります

于 2016-05-30T12:43:54.093 に答える
1

上記の解決策のどれも私にはうまくいかなかったので(私は多くのヨーロッパの文字セットをASCIIに音訳する必要がありました)、私はついにこの古いPECLパッケージを見つけまし。特にキリル文字セットで問題が発生しましたが、これで問題なく処理できるようです。

于 2014-08-06T11:53:22.227 に答える
1

私があなたを正しく理解していれば、私はあなたに答えがあるかもしれません:私はあなたがほとんどの文字をそれらのASCII同等物に変換することを可能にする基本的なPHPクラスを書きました。

以下は、名前にアクセントを付けたさまざまな作曲家の名前を変換した出力のスクリーンショットです。

こちらのgithubからフォークできますhttps://github.com/LukeMadhanga/transliterator

注意:これはまだ文書化されていませんが、簡単に理解できるはずです。

例

于 2015-09-11T15:49:33.770 に答える
0

私はこれをGolangでhttps://github.com/marekkowalczyk/sanitizeと書きました。箱から出してすぐに機能し、簡単に改善できます。

于 2021-03-14T23:18:12.897 に答える