1

検索アプリケーションを実装しています。コーパスは大きなテキストドキュメントです。ファイル処理中に、すべての単語をトークン化し、Porter StemmerアルゴリズムStep1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)を呼び出しています。

Step1は、複数形と-edまたは-ing..を削除します。

「this」のような単語が「thi」に変換されることに気づきました。

それはアルゴリズムの通常の動作ですか?'this'という単語をトークン化したかったので。

4

1 に答える 1

1

あなたの説明から、それthisは Porter Stemmer アルゴリズムでは複数形と見なされ、 に縮小されるというのが私の推測ですthi

sPorter の論文では、で終わる複数形以外の単語への明示的な参照は見つかりません。

http://tartarus.org/~martin/PorterStemmer/def.txt

于 2010-11-06T16:24:28.143 に答える