CC ライセンスの中英辞書であるCC-CEDICTを使用するアプリケーションを作成しています。
ディクショナリは、次の形式のエントリを含む圧縮テキスト ファイル (4 MB)としてのみ利用できます。
Traditional Simplified [pin1 yin1] /English equivalent 1/equivalent 2/
これはサンプルデータです:
是 是 [shi4] /is/are/am/yes/to be/
昰 是 [shi4] /variant of 是[shi4]/used in given names/
時 时 [Shi2] /surname Shi/
時 时 [shi2] /o'clock/time/when/hour/season/period/
私の問題を説明するために、これらの行を意図的に選択しました。データには、個々の単語を識別できる識別可能なキーはありません。
英語の定義は変更される可能性があり、辞書は常に更新されますが、1 回の更新で 2 つの定義が変更されると仮定すると、次のダウンロードには次の行が含まれます。
時 时 [Shi2] /last name Shi/
時 时 [shi2] /o'clock/time period/when/hour/season/
どのレコードが更新されたかを確認するにはどうすればよいですか? これは、翻訳が完全に変化する単一の単語である場合に非常に顕著です。
私は、この辞書をキーにする方法について戦略を立てています。これまでのところ、私の最善のアイデアは、(Simplified、Traditional) をキーとして取り、重複を特別なケースとして扱うことです-おそらく独自のテーブルで??