プレーンテキストのUTF8ドキュメントをRからL言語、ラテン語に変更する必要があります。残念ながら、文字と文字の音訳ほど簡単ではありません。
たとえば、R to L言語(ا)の「a」は、単語の構成に応じて「a」または「ә」のいずれかになります。
ag、k、e、またはhamza(گ،ك،ە،ء)の単語では、
すべてのa、o、i、u(ا،و،ى،ۇ)をラテン語に変更する必要があります。 ü(「ソフト」母音と呼ばれます)。
例えば。سالەمはsәlêmになり、ءۇيはüyになり、سوزمەنはsѳzmênになります
ag、k、e、またはhamza(گ،ك،ە،ء)
のない単語では、a、o、i、uはラテン文字のa、o、i、u(「ハード」母音と呼ばれます)に変わります。
例えば。الماはalmaになり、ۇلはulになり、ورتاはortaになります。
本質的に
、g、k、e、またはhamzaは、アラビア文字の発音ガイドとして機能します。
ラテン語では、アラビア文字の元の単語に応じて、2つの異なる母音のセットが必要です。
ステップ1として「ソフト」な母音の単語を実行してから、ドキュメントの残りの部分で別の検索と置換を実行する必要があるかもしれないと考えていました。しかし、どうすればこのような検索と置換をperlまたはpythonで実行できますか?
ユニコードの例を次に示します。\U+ 0633 \ U + 0627 \ U + 0644 \ U + 06D5 \ U + 0645 \ U + 0648 \ U + 0631 \ U + 062A \ U + 0627 \ U + 0674 \ U + 06C7 \ U + 064A \ U + 0633 \ U + 0648 \ U + 0632 \ U + 0645 \ U + 06D5 \ U + 0645 \ U + 0627 \ U + 0644 \ U + 0645 \ U + 0627 \ U + 06C7 \ U +0644 \ U + 0645 \ U + 06D5 \ U + 0646 \ U + 0649 \ U + 06AD \ U + 0627 \ U + 062A \ U + 0649 \ U + 0645 \ U + 0634 \ U + 0627 \ U + 0644 \ U + 0642 \ U + 0627 \ U+0631。
「sәlêmortaüysѳzmênalmaulmêningatimxalқar」のように表示されます(注:U + 06ADである文字ڭは、実際には2文字のn + gになり、「-ng」の音になります。 )。「salêmortauysozmênalmaulmêningatimxalқar」や「sәlêmѳrtәüysѳzmênәlmәülmêningәtimxәlқәr」のように表示しないでください。
助けてくれてありがとう。