NLTKを使用して、特定のテキストでどの単語がフィラー ワードであるかを表示する方法はありますか? そうでない場合、英語の単語を含む単語リストをどこで入手できるか知っている人はいますか? ありがとうございました
解決済み: nltk.corpus インポート ストップワードから
NLTKを使用して、特定のテキストでどの単語がフィラー ワードであるかを表示する方法はありますか? そうでない場合、英語の単語を含む単語リストをどこで入手できるか知っている人はいますか? ありがとうございました
解決済み: nltk.corpus インポート ストップワードから
NLTK 自体はそのようなリストを提供していませんが、多くは Web の他の場所で入手できます。
かなりの数のソースが存在します。「profanity」「badwords.txt」またはblacklists.txtを含む単語リストを Web 検索すると、多くのソースが得られます。
当社の場合、独自のリストを作成し、必要に応じて追加することになりました。聴衆に応じて、リストを微調整して調整する必要があります。
最後に、このSO の質問(および php について) は終了していますが、参照とディスカッションが非常に役立つことがわかりました。
更新:必要なのはSTOP WORDSのリストです。
それが役立つことを願っています。