python - nltk pos タグの罵倒

Question

NLTKを使用して、特定のテキストでどの単語がフィラーワードであるかを表示する方法はありますか? そうでない場合、英語の単語を含む単語リストをどこで入手できるか知っている人はいますか? ありがとうございました

解決済み: nltk.corpus インポートストップワードから

score 3 · Accepted Answer

NLTK 自体はそのようなリストを提供していませんが、多くは Web の他の場所で入手できます。

かなりの数のソースが存在します。「profanity」「badwords.txt」またはblacklists.txtを含む単語リストを Web 検索すると、多くのソースが得られます。

noswearing.comは、出発点の 1 つです。
Netnanny などのサイトでは、「検閲リスト」が使用されています (このスレッドにはリンクがあります)。いずれかをダウンロードして、そこから始めてください。

当社の場合、独自のリストを作成し、必要に応じて追加することになりました。聴衆に応じて、リストを微調整して調整する必要があります。

最後に、このSO の質問(および php について) は終了していますが、参照とディスカッションが非常に役立つことがわかりました。

更新:必要なのはSTOP WORDSのリストです。

それが役立つことを願っています。

1 に答える 1