翻訳対象の文書の繰り返しを計算するための標準的な式を Web で調べました。私はそれを見つけていません。翻訳における繰り返しが何を意味するのかを知らない人のために、これはそれについての良い説明を与えます.
私は最初にこのようなことを試しました
using System;
using System.Collection.Generic;
using System.Text.RegularExpressions;
using System.Linq;
<snip>
Dictionary<string, int> _dict = new Dictionary<string, int>();
int CalculateRepetitions(string plainTextDoc) {
foreach (string item in Regex.Split(plainTextDoc, "\\P{L}+"))
if (_dict.ContainsKey(item))
_dict[item]++;
else
_dict.Add(item, 0);
return _dict.Where((key, value) => value > 0).Count();
}
しかし、それは同じ文書の Trados からのサンプル数に近くなく、繰り返しの定義が間違っていました。翻訳の繰り返しを計算するための良い例はありますか? C# の回答だけを期待しているわけではありません。Java と C++ の回答も得意です。