3

私は日本語の言語の並べ替えを必要とするいくつかのアプリケーションに取り組んでいます。

日本語のソートでは、カタカナと漢字をひらがなに変換してから、UTF-8 コードに従ってソートする必要があります。

ひらがな、カタカナ、漢字を組み合わせて、ひらがなに相当する「スペル」でソートします。注: ひらがな「アルファベット」を使用 – a、i、u、e、o、ka、ki、ku、ke、ki など

このタスクを実行するには、次のものが必要です。

1.日本語の文字を漢字かカタカナかひらがなに分類する。

2.カタカナと漢字をひらがなに変換します。

3.ひらがなに基づいてソートを行うアルゴリズムを適用します。

アプリケーションのデータベースは UTF-8 です。

ここで、第 1 ステップ「日本語の文字を漢字またはカタカナまたはひらがなに分類する」を実行します。、

Sqlite3 、 QT 、 ICU 、または Character の Unicode を提供できるその他のパッケージに C または C++ プログラミング言語用の API が存在するかどうかを知りたいですか?

Unicode に基づいて、日本語の文字を簡単に分類できます。

私が間違っている場合は修正してください。

4

1 に答える 1

3
  1. おっしゃるとおり、日本語の文字は Unicode を使って簡単にグループ分けできます。これは些細なことです。

  2. カタカナからひらがなへの変換も、1 対 1 のマッピングがあるため簡単です。Kakasiで漢字をひらがなに変換できます

  3. 並べ替えは、ひらがなに変換してから行うことができます。ただし、漢字は同音異義語(同音異字)が多いので貧乏人です。したがって、ひらがなで変換して並べ替える前に、漢字を並べ替える必要があります。

なぜこのように並べ替える必要があるのか​​ はわかりません。アプリケーションについて詳しく教えていただければ、より良い並べ替えを提案できるかもしれません。

于 2011-03-22T09:17:11.043 に答える