問題タブ [transliteration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
181 参照

javascript - Korean romanizer : すべてをローマ字化するわけではありません

私は音訳スクリプト (韓国語の音節をラテン文字に変換する) に取り組んでいます。

問題は、私のスクリプトが「갈라」、「갈」、または「라」のローマ字化のみを受け入れることです。「갈라라」、「라갈」、「갈라」、「라라」、「갈갈」などは変換されません。

誰にも解決策がありますか?本当にありがたいです。

0 投票する
1 に答える
304 参照

ruby - iconv は将来廃止される予定です。

ruby 1.9.3 は iconv の非推奨について警告していますが、私は iconv を使用して分音記号を削除し、プレーン ASCII を使用しています。

戻りますTezisteString.encodeを使用してこれを取得するにはどうすればよいですか?

0 投票する
0 に答える
427 参照

regex - 異なる書記体系間の音訳

テキストの音訳を別の書記体系に変更する方法を学ぶ必要があります。どうやら最良の方法は、おそらくコマンドラインから正規表現とperlを使用することでしょうか? 私は以前に Notepad++ と TextWrangler で正規表現を使用していたので、いくつかの基本は既に知っています。Ruby などでこれを行うための本当に優れた (そして比較的簡単でカスタマイズ可能な) 方法があれば、それも学び始めることができます。ウラル言語学の私の分野では、言語サンプル テキストを音訳する必要が常にあります。そこでは、さまざまな音訳システムが使用されています。そのため、時間を投資する価値があります。

そのため、私が今持っている資料は、各行に文がある行で構成されています。一部の行には数字などの他のデータがありますが、そのままにしておく必要があります。句読点をそのままにしておきたいのですが、これは、あるセットの Unicode 文字を別の文字に変換するだけです。サイトを検索しましたが、多くは ascii から unicode への変換などに関するものでした。これはここでは問題ではありません。

したがって、元のテキストは次のようになります (広義の Finno-Ugric Transcription で):

そして、次のような形式で必要になります。

これが数千行続く。

使用されている文字間には明確な対応がありますが、複雑な場合があり、最初にいくつかの有向グラフや子音 + 母音の組み合わせなどを処理する必要があります。私のまま。テキストが異なれば解決策も異なるため、それぞれの場合にルールを調整する必要があります。それを機能させるには、非常に特定の順序で一連の正規表現を実行する必要があることを理解しています。この順序は自分で考えますが、どのようなツールにこれらのルールを入力し、どのように実行するかを知る必要があります。

また、元の文と音訳された文をタブで区切って、行が次のような形式になるようにしたい場合もよくあります。

もちろん、もっとたくさんの質問がありますが、これらの基本を学んだ後、私は独立して前に進むことができると思います. これを学ぶことは私を大いに助けるでしょう。前もって感謝します!

ニコ

0 投票する
0 に答える
1531 参照

c++ - C++ で ICU に任意の Unicode から Latin1 (ISO-8859-1) に音訳させるにはどうすればよいですか?

「Any-Latin」を使用して ICU をラテン語に音訳することができますが、これには、Latin1 コードページにないマクロンなどの文字が含まれます。「Any-Latin; Latin-ASCII」を使用してASCIIに音訳することはできますが、有効なLatin1文字であるアクセント付き文字をすべて失います。特に「Any-ISO_8859_1」を実行する何かが必要です

それを行う唯一の方法は、一連のカスタム ルールを構築することです。たとえば、Latin に変換してから、マクロンなど、Latin1 以外のものをすべて削除します。

しかし、他に何を削除する必要があるのか​​ わかりません。このソリューションは非常に不器用で、おそらく非常に遅いように見えます。それが正しいと100%確信できるかどうかはわかりません.

より良い (より簡単で速い) 方法があれば、私は ICU と結婚していません。しかし、私は C/C++ で立ち往生しています。

明確にするために、これはIs there a way to convert from UTF8 to iso-8859-1?と同じ質問ではありません。 その質問は、コンテンツが iso-8859-1 のみであることが既にわかっている場合のエンコーディング間の変換に関するものです。変換は文字を 1 対 1 でマップし、ターゲットのエンコーディングでサポートされていない文字については失敗します。

私の質問は、音訳についてです。たとえば、牛のような漢字を「牛」に音訳してほしい。

0 投票する
3 に答える
3789 参照

java - Java での音訳。文字列内の各文字を再定義します

メソッドの目的は、次のような文字列の音訳です: афиваў => afivaw. 問題はcharAt、'ш' => "sh" という 2 つの記号として音訳する必要がある文字があるため、メソッドを使用して再定義できないことです。私はこれを試します:

以外の何かを私に勧めることができますcharAtか?