検索アプリケーションを実装しています。コーパスは大きなテキストドキュメントです。ファイル処理中に、すべての単語をトークン化し、Porter StemmerアルゴリズムStep1(http://tartarus.org/~martin/PorterStemmer/csharp2.txt)を呼び出しています。
Step1は、複数形と-edまたは-ing..を削除します。
「this」のような単語が「thi」に変換されることに気づきました。
それはアルゴリズムの通常の動作ですか?'this'という単語をトークン化したかったので。