Beeferman の PK と WindowDIFF の Python NLTK 実装は、両方の python segeval 実装とは完全に異なる結果を得ています。
同じパラメーターを使用します。
hyp: 0100100000
ref: 0101000000
k=2
PK's SegEval:0.2222222
PK's NLTK:0.111111111
hyp: 111111
ref: 100100
k=2
PK's SegEval:0.4
PK's NLTK:0.64
これは、それを使用する人にとって異なる研究結果につながる可能性があります.
これら 2 つの実装で PK の結果が異なるのはなぜですか? PK の結果は 1 つだけである必要があります。