n-gram の計算方法を理解しようとすると、問題が発生します。
nグラム(頻度ではない)を計算するときに、共通要素の位置を交換できるのだろうか?
これらはいくつかの例です:
(最初と最後に余分な記号が追加されていると仮定します)
1.
%Gorbachev%
%Gorbechyov%
v_ は共通の要素と見なされるべきですか?
2.
%grew%
%ewgr%
gr と ew の両方を共通の要素と見なす必要がありますか?
3.
%gladstone%
%astone%
e% から開始するか、 %a から開始する必要がありますか?