テキストの音訳を別の書記体系に変更する方法を学ぶ必要があります。どうやら最良の方法は、おそらくコマンドラインから正規表現とperlを使用することでしょうか? 私は以前に Notepad++ と TextWrangler で正規表現を使用していたので、いくつかの基本は既に知っています。Ruby などでこれを行うための本当に優れた (そして比較的簡単でカスタマイズ可能な) 方法があれば、それも学び始めることができます。ウラル言語学の私の分野では、言語サンプル テキストを音訳する必要が常にあります。そこでは、さまざまな音訳システムが使用されています。そのため、時間を投資する価値があります。
そのため、私が今持っている資料は、各行に文がある行で構成されています。一部の行には数字などの他のデータがありますが、そのままにしておく必要があります。句読点をそのままにしておきたいのですが、これは、あるセットの Unicode 文字を別の文字に変換するだけです。サイトを検索しましたが、多くは ascii から unicode への変換などに関するものでした。これはここでは問題ではありません。
したがって、元のテキストは次のようになります (広義の Finno-Ugric Transcription で):
mödis ivan velöććyny pećoraö ščötövödnej kurs vylö.
そして、次のような形式で必要になります。
мӧдiс иван велӧччыны печораӧ щӧтӧвӧднэй курс вылӧ.
これが数千行続く。
使用されている文字間には明確な対応がありますが、複雑な場合があり、最初にいくつかの有向グラフや子音 + 母音の組み合わせなどを処理する必要があります。私のまま。テキストが異なれば解決策も異なるため、それぞれの場合にルールを調整する必要があります。それを機能させるには、非常に特定の順序で一連の正規表現を実行する必要があることを理解しています。この順序は自分で考えますが、どのようなツールにこれらのルールを入力し、どのように実行するかを知る必要があります。
また、元の文と音訳された文をタブで区切って、行が次のような形式になるようにしたい場合もよくあります。
mödis ivan velöććyny pećoraö ščötövödnej kurs vylö. мӧдiс иван
велӧччыны печораӧ щӧтӧвӧдней курс вылӧ.
もちろん、もっとたくさんの質問がありますが、これらの基本を学んだ後、私は独立して前に進むことができると思います. これを学ぶことは私を大いに助けるでしょう。前もって感謝します!
ニコ