人間の言語のテキスト (中国語) で単語ごとの差分を取得するにはどうすればよいですか?
git リポジトリに中国語のプレーン テキストがいくつかあります。テキストが編集されたので、追加/削除された単語を確認したい. ファイルの 1 行はテキストの段落全体を表すため、単純な git diff では不十分です。特定の数の段落で何かが変更されたことはわかっていますが、その中でどの文/単語が変更されたかはわかりません。
さらに悪いことに、私が言ったように、テキストは中国語です。英語やその他の印欧語とは異なり、中国語では単語の区切り記号としてスペースを使用しません。段落全体は、中国語の句読点とともに、スペースを含まない統一されたブロックになります。したがって、 git diff --word-diff はまったく役に立ちません。
そのような中国語のテキストの 2 つのバージョン間の人間が読める差分を作成する方法はありますか? 各文字の --word-diff に相当するものはありますか?