問題は、それは単なるエンコーディングの問題です。行が次のように見える場合
‰∏ç ‰∏ç [bu4] /(負の接頭辞)/not/no/
これは、テキスト エディターが、テキストが UTF-8 としてエンコードされていることを認識していない/認識していないためです。Text Wrangler、またはその兄弟である BBEdit は、エンコーディングの推測に非常に優れており、特定のエンコーディングでテキストを表示するように求められることさえあります。
最終的に何を達成したいのかがわからないため、具体的に何をしなければならないかを正確に伝えることは困難です。私が言えることは、アプリ (とにかくどの言語を使用していますか?) は Unicode に対応している (そして UTF 文字列を読み取ったり操作したりできる) 必要があるということです。
CEDICT に基づいて、Mac OS X 用と Android 用の 2 つのアプリを作成しました。CEDICT の解析とインデックス作成はそれほど難しくありません。
アップデート
CEDICT の解析自体に関しては、何も複雑ではありません。私はObjective-Cをやったことがなく、したことも今後もするつもりはありませんが、プロセスはどの言語でも同じです。
- 一行読む。あなた自身の例を言ってください: 不 不 [bu4] /(負の接頭辞)/not/no/
- 4 つのフィールドがあります。Trad。Ch.、Simp。Ch.、読み方、意味。これらのフィールドはスペースで区切られています。もちろん、4 番目のフィールドにはスペースが含まれる可能性があるので注意してください。
- 4つのフィールドをdbに保存します(私はsqlite dbを使用しました)。定義フィールドからスラッシュを削除し、別のものに置き換えたい場合があります。
- ループ
これで、CEDICT がデータベースに変換されました。それは簡単な部分です。中国語のトークン化については、頑張ってください。私よりも優れた頭脳は、まだこれに頭を悩ませています。