正直なところ、それはあなたが取り組んでいる大きな問題です。
開始するための非常に基本的な方法 (悪い結果をもたらすために行っていますが、何もしないよりはましです)、手動で 1000 個のツイートを分類します。何を分類しようとしているのかを把握するのに役立ちます。
次に、200 万回のツイートで最も人気のある 1000 語のデータベースを作成します。このデータベースを手動で編集します (「the」や「is」など、問題を表す不要な単語を削除します)。「良い」言葉 (いいね、愛、素晴らしい) のデータベース、「悪い」言葉 (悪い、ひどい、...) のデータベース、および「提案」 (提案、エラー、私は持っていません) のデータベースを作成してみてください。他に何か)。目標は、データベースを問題に最も役立つ単語に減らすことです (たとえば、最後に 100 単語のみを使用するなど)。
各ツイートはサイズ 100 のベクトルになります。これを使用して、必要な手法を実行します (ナイーブ ベイズ、SVM など...)。
このプロセス全体は、スパム分類のコースで少し前に行ったことの概要です。非常にうまく機能しました (認識率 98%?)。次に、私たちの本当のプロジェクトは、フォーラム上のヘイトメール (「死ね」などのメッセージ) を分類することでした。認識率は 80% だったと思いますが、これはかなり悪かったです。しかし、何もないよりはましです。
200 万件のツイートが分類されていないため、この方法で結果を確認するのは困難です。クロス検証は、1000 サンプルでのみ実行できます。ただの警告