2 に答える
このスレッドがかなり長いことは知っていますが、ネイティブのタイ人として言いたいことがあります。私は毎日たくさんのタイ語の Web ページを読んでいますが、最近の Web ブラウザーによるタイ語の改行の品質は完全に許容できるものだと感じています。
私が知っているように、Google Chrome ブラウザーは ICU4C を使用し、Internet Explorer は Uniscribe API を使用し、Firefox は libthai を使用してタイ語の文章を単語に分解します。私が知っているタイ人にとって、これらの Web ブラウザーがタイ語の改行を処理する方法は、彼らにとって完全に受け入れられるものです。(実際には、非常に初期のバージョンの Firefox (1.x) でこの問題が発生していましたが、現在は解決されています。)
タイ語の改行と単語の分割は、西洋の言語とは異なり、依然として未解決の問題と見なされており、多くの言語学研究者が積極的に取り組んでいます. 現在、文をタイ語に完全に分割できる実装はありません。IBM ICU Boundary Analysisページには、この問題に関する分析が含まれています。
多くの場合、それは文脈と関係があります。たとえば、"ตากลม" という句は、" ตา","กลม"または"ตาก","ลม"に正しく分割できます。それぞれの言い方はまったく異なることを言っていますが、タイの読者は文脈を考えれば、意図した意味を完全に理解することができます.
あなたの地元のレビュアーはすでにタイのウェブサイトを読むことに慣れているので、この問題を解決するには強引すぎるのではないかと思います. これは、すべてのタイの Web サイト、Web ブラウザー、さらには Microsoft Word に共通する解決不可能な問題です。
タイ語の文分割の実装が改善されるまで待つ (または IBM ICU に貢献する) のが最善です。これは Web ブラウザに任せてください。この問題を回避しようとすることは、あなたの貴重な時間の価値があるとは思いません。私が知っているように、ここのタイのウェブサイトの発行者でさえ、これを正しくすることを気にしません.
完全な改行/単語区切りでドキュメントを公開する必要がある場合は、改行をより細かく制御する必要がある PDF ドキュメントなど、他の媒体を検討することもできます。
お役に立てれば :)
ICU および ICU4J ライブラリには、必要に応じて改行ゼロ幅スペースを挿入するためにサーバー側で使用できるタイ語用の辞書ベースの単語改行反復子があります。
または、これを使用して、ビルド時または翻訳の配信時に実行できるユーティリティをビルドすることもできます (事前にスペース要件がわかっている場合)。
詳細については、ICU 境界解析を参照してください。これらのライブラリは、C、C++、および Java で使用できます。