database - DBに保存する100万文-関連性のない英語の単語を削除

Question

感情から抽出したポジティブ/ネガティブな単語を使用して、単純ベイズ分類器をトレーニングしようとしています。例：

私はこの映画が大好きです:)）

雨が降ると嫌いです:(

アイデアは、使用された感情に基づいて肯定的または否定的な文を抽出することですが、分類子をトレーニングしてデータベースに永続化するためです。

問題は、そのような文が100万を超えることです。したがって、単語ごとにトレーニングすると、データベースはトスになります。関連性のない単語の例「I」、「this」、「when」、「it」をすべて削除して、データベースクエリを実行する回数を減らしたいと思います。

この問題を解決するのを手伝って、より良い方法を提案してください

ありがとうございました

score 8 · Accepted Answer

2つの一般的なアプローチがあります。

ストップリストをコンパイルします。
品詞タグ付けをして、面白くないと思う品詞を捨てます。

どちらの場合も、どの単語/ POSタグが関連しているかを判断するには、PMIなどの手段を使用します。

注意：情報検索の標準的なストップリストは、感情分析で機能する場合と機能しない場合があります。私は最近、それが主張された論文（参照なし、申し訳ありません）を読みました！および？は、検索エンジンで一般的に削除され、感情分析の貴重な手がかりになります。（特に、ニュートラルなカテゴリがある場合は、「私」になる可能性があります。）

編集：トレーニングセットで1回だけ発生するすべてのもの（いわゆる孤語）を安全に破棄することもできます。一度出現する単語は、分類子にとってほとんど情報価値がありませんが、多くのスペースを占める可能性があります。

score 4 · Accepted Answer

これをチェックしてみてください http://books.google.com/books?id=CE1QzecoVf4C&lpg=PA390&ots=OHuYwLRhag&dq=sentiment%20%20mining%20for%20fortune%20500&pg=PA379#v=onepage&q=sentiment%20%20mining ％20for％20fortune％20500＆f = false

score 0 · Accepted Answer

データベースから取得するデータの量を減らすために、データベースに辞書（単語*を数値**にマップするテーブル）を作成し、トレーニング用の数値ベクトルと感情を手動でマークするための完全な文のみを取得することができます。。

| *科学的な出版物は思い浮かびませんが、単語の代わりに語幹または見出語のみを使用するだけで十分かもしれません。辞書のサイズが小さくなります。

| **この操作でデータベースが強制終了された場合は、ローカルアプリケーションで辞書を作成し（テキストインデックスエンジン（apache luceneなど）を使用）、結果のみをデータベースに保存できます。

database - DBに保存する100万文-関連性のない英語の単語を削除

3 に答える 3

Related

Reference