私はやや大きなドキュメントを持っており、Pythonを使用してこのドキュメントの単語をストップワード除去およびステミングしたいと考えています。誰かがこれらの棚パッケージを知っていますか?そうでない場合は、大きなドキュメントに十分な速度のコードも歓迎します。ありがとう
2250 次
2 に答える
8
NLTKはこれをサポートしています。
于 2010-10-07T14:56:33.003 に答える
4
何らかの理由でNLTKを使用したくない場合は、PyStemmerを試すことができます。ストップワードについては、リストをダウンロードして(グーグルで検索)、フィルターで除外してください。
于 2010-10-07T16:00:57.653 に答える