3

he, she, itNLPまたはIR/IE関連のタスクを実行するときに句読点を削除してクラスの単語(など)を閉じるために人々が通常使用するストップワードのリストはありますか?

私は語義の曖昧性解消のためにギブスサンプリングを使用してトピックモデリングを試してきましたが、コーパスに頻繁に現れるという理由だけで、句読点や近いクラスの単語に高い確率を与え続けています。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

4

1 に答える 1

6

ググってみましたか?私が得たトップヒットには、ストップワードリストが含まれているか、上記のリストにリンクするスタックオーバーフローの投稿です。

于 2013-02-18T11:28:58.037 に答える