imdb data を使用して、主観的および客観的なテキストの分類器を構築しようとしています。客観的なデータ ポイントについては、映画のあらすじの要約を入力として使用していますが、主観的なデータ ポイントについては、映画のレビューを使用しています。
レビューの場合、1 人のユーザーによる各レビューは 1 つのデータ ポイントです。私のデータベースでは、異なるユーザーによる同じ映画の異なるレビューは、異なるデータ ポイントとして入力されます。
この後、特殊文字の単語をきれいにし、ストップ ワードを削除し、情報ゲインを計算して単語辞書を作成し、単語の頻度を使用して Naive Bayes を適用して確率を計算しました。
今私の質問は
- 分類器を構築するアルゴリズムは正しいですか?
- 私の分類子は、客観性に大きく偏っています。トレーニングデータの作成を間違えていませんか?
ツイートやブログから抽出したものに使用できるジェネリック分類器を作成したいと考えています。映画のレビューデータは十分ですか?現在、映画のレビューデータでも機能していません