問題タブ [southeast-asian-languages]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
2350 参照

python - クメール語を分割するための実行可能なソリューション?

私は、クメール語 (カンボジア語) の長い行を個々の単語 (UTF-8) に分割するソリューションに取り組んでいます。クメール語では単語間にスペースを使用しません。そこにはいくつかの解決策がありますが、それらは十分ではなく (ここここ)、それらのプロジェクトは途中で失敗しました。

分割する必要があるクメール語のサンプル行を次に示します (これよりも長くなる可能性があります)。

ចូរសរសើរដល់ទ្រង់ដល់ទ្រង់ដែលបានប្រទានប្រទានការនោះទាំងអស់អ្នកដោយដោយព្រោះអង្គហើយហើយអ្នកមិនអាចមិនអាចការ

クメール語の単語を分割する実行可能なソリューションを作成するという目標は 2 つあります。クメール語の従来の (非 Unicode) フォントを使用していたユーザーが Unicode に変換することを奨励し (多くの利点があります)、従来のクメール語フォントをインポートできるようにすることです。 Unicode に変換して、スペル チェックですばやく使用できるようにします (大きなドキュメントでは非常に長い時間がかかる手動で単語を調べて分割するのではなく)。

100% の精度は必要ありませんが、速度は重要です (特に、クメール語に分割する必要がある行はかなり長くなる可能性があるため)。私は提案を受け入れますが、現在、正しく分割された (改行なしのスペースで) クメール語の大きなコーパスがあり、単語確率辞書ファイル (frequency.csv) を作成して、ワードスプリッター。

Viterbi アルゴリズムを使用するこのpython コードを見つけました。おそらく高速に実行されます。

また、このページの作成者のソース Java コードを使用してみました:テキスト セグメンテーション: 辞書ベースの単語分割ですが、速度が遅すぎて役に立ちませんでした (私の単語確率辞書には 10 万以上の用語があるため...)。

そして、スペース/結合された単語を含まないテキストから最も可能性の高い単語を検出するからのpythonの別のオプションがあります:

私はPythonに関しては初心者であり、(Webサイト以外の)すべての実際のプログラミングに本当に慣れていないので、ご容赦ください。うまくいくと思うオプションを持っている人はいますか?

0 投票する
1 に答える
3596 参照

android - Android ベトナム語テキスト読み上げ?

Android でテキストからベトナム語を話すアプリを開発する方法を探しています。私が知っているように、デフォルトではベトナム語の TTS はインストールされていません。Android用のベトナム語TTSエンジンはありますか?もう 1 つ : ベトナム語の TTS エンジンがインストールされているふりをしていますが、この方法mTts.setLanguage(Locale)には適切なロケールが必要であり、ベトナム語のロケールが提案リストにありません。この場合の回避策はありますか?

0 投票する
3 に答える
1977 参照

java - iText のクメール語 Unicode

私はiTextが初めてです。
今、iText でクメール語の Unicode を表示したいのですが、できません。誰もそれを行う方法を知っていますか? 教えてください。

よろしく、リージャバ

0 投票する
2 に答える
1100 参照

fpdf - FPDF でクメール語 Unicode の文字マップを作成するには?

他の Unicode と同様に、FPDF でクメール語 Unicode の文字マップを作成したいので、私のクメール語 Unicode は FPDF でサポートされます。しかし、方法がわかりません。これが私の Unicode 文字へのリンクです: http://unicode.org/charts/nameslist/n_1780.html#1780

親切に私を助けてください。ありがとう。

私の英語が気にならないことを願っています。

0 投票する
1 に答える
436 参照

android - ビルマ語のInputMethodの開発::Android

私はAndroid4.0用のビルマ語入力方式を開発しています。APIデモで提供されているサンプルソフトキーボードをフォローしています。

今私の質問は

サンプルソフトキーボードのqwert.xmlで、次のようになりました。

上記のスニペットandroid:codes="113" 113には、文字qのUTF-8コードがあります。

私がしたことは、android:codesをビルマ文字のUTF-8コードに置き換えたことです。ビルマ文字が表示されることを期待していましたが、すべての文字に空白が表示されます。

私は立ち往生しています。グーグルで検索しましたが、何も見つかりませんでした。

誰か助けてもらえますか?

0 投票する
4 に答える
2083 参照

python - タイ文字を含む文字列を右揃えにする

タイ語の文字を含む文字列を右揃えにしたいと思います (タイ語のレンダリングは左から右には機能しませんが、上下にも移動できます)。

たとえば、文字列 ไป (2 文字、長さ 2) および ซื้อ (4 文字、長さ 2) の場合、次の出力 (長さ 5) が必要です。

ナイーブ

ただし、それぞれ生成します

目的のフォーマットに到達する方法はありますか?

編集: タイ文字 tc の文字列が与えられた場合、文字列が使用する [場所/フィールド/位置/名前は何でも] の数を決定したいと思います。これは len(tc) と同じではありません。len(tc) は通常、使用される桁数よりも大きくなります。2 番目の単語は len(tc) = 4 になりますが、長さは 2 / 2 桁 / 2 桁です。

0 投票する
1 に答える
225 参照

php - 未定義のオフセットと分音記号

Laotianテキストを解析しようとしていますがutf8_ireplace、取得しています

未定義のオフセット通知。

私が見ることができる唯一のことは、分音記号があることです。それはその警告を引き起こしますか?それとも、なぜそれが常にラオス語になるのか(私が処理している6つの言語のうち)の手がかりを誰かが教えてくれますか?

ラオス語と同様の言語 (チベット語など) を異なる方法で処理する特別な方法はありutf8_replaceますか? これらの言語の一部の文字で通知が発生することは既知の問題ですか? 分音記号は問題ですか、それとも何か他のものですか? 通知レポートをオフにする以外に、通知を受け取らないようにする方法を知っている人はいますか?

更新:実際には、ラオス語では単語間にスペースがないため、文字列を区切る必要があることを付け加えます。これは、私が utf8_replace を使用しているものですが、タイ語では機能しているように見えますが、ラオス語では失敗しています。したがって、実際には文字列を分割しようとしていますが、何らかの理由でオフセットが定義されていません。チベット語も「α╜ª」などの問題を抱えているようです。

アップデート

中心的な質問は次のとおりutf8_replaceです。ラオス語のいくつかの単語を使用して通知を受け取るのはなぜですか?

(ジュムラ)

0 投票する
1 に答える
238 参照

python - ラオスでの正規表現?

Python では、この HTML コードでラオス文字のみを表示したいと思います (「textarea」タグのみ)。

「テキストエリア」の値が欲しいだけです。私は何をすべきか?

0 投票する
2 に答える
2396 参照

ios - SQLite でのベトナム語 Unicode テキスト検索

SQLite をバックエンドとして使用する iOS アプリを作成する予定です。私のデータベースには、 「Hải Sơn」などのベトナム語のテキストが含まれています。Google 検索に慣れているユーザーは、上記のテキストを見つけるために「ハイ ソン」などの検索語を入力したいと考えています。次のクエリを試しました。

そして、私は0レコードを得ました。これを機能させるにはどうすればよいですか?Google や他の検索エンジンがこのケースを処理することを知っているので、実行できます。また、すべてのユーザーがその方法を知っているわけではないため、ユーザーに完全な分音記号付きのベトナム語テキストを入力させたくありません。

アップデート

sqlite3 のドキュメントを調べたところ、有効な照合順序は BINARY、NOCASE、および RTRIM の 3 つだけのようです。私は何かを逃していますか?

より詳しい情報

私のテーブルは次のもので作成されました:

ここまでは、sqlite3 コマンド ラインのみを使用して、データベース、テーブルを作成し、CSV ファイルからテキストをインポートしました。

私のsqlite3はバージョン3.7.12です

更新 2

Aliasは、独自の照合シーケンスを作成するというアイデアを私に与えてくれました。効果があれば追記します。