0

n-gram の計算方法を理解しようとすると、問題が発生します。

nグラム(頻度ではない)を計算するときに、共通要素の位置を交換できるのだろうか?

これらはいくつかの例です:

(最初と最後に余分な記号が追加されていると仮定します)

1.

%Gorbachev%

%Gorbechyov%

v_ は共通の要素と見なされるべきですか?

2.

%grew%

%ewgr%

gr と ew の両方を共通の要素と見なす必要がありますか?

3.

%gladstone%

%astone%

e% から開始するか、 %a から開始する必要がありますか?

4

0 に答える 0