-1

200 万件のツイートがあり、次の 3 つのカテゴリに分類する必要があります。

  • 製品が好きです。
  • 気に入らない; と
  • 商品のご提案。

しかし、分類の結果をどのように確認しますか? いくつかのツイートを無作為に選び、それらのコンテンツを手動で読み取り、それらのコンテンツがそれらに与えられた分類タグと一致するかどうかを確認しますか? または、それを行うより良い方法はありますか?

マルチレベルの分類を行うエンタープライズ レベルのソフトウェア パッケージがいくつかあると聞いたことがありますが、何百万ものレコードを手動で調べて分類をチェックすることなく、結果が重要であることをどのように証明できるのでしょうか?

4

1 に答える 1

0

正直なところ、それはあなたが取り組んでいる大きな問題です。

開始するための非常に基本的な方法 (悪い結果をもたらすために行っていますが、何もしないよりはましです)、手動で 1000 個のツイートを分類します。何を分類しようとしているのかを把握するのに役立ちます。

次に、200 万回のツイートで最も人気のある 1000 語のデータベースを作成します。このデータベースを手動で編集します (「the」や「is」など、問題を表す不要な単語を削除します)。「良い」言葉 (いいね、愛、素晴らしい) のデータベース、「悪い」言葉 (悪い、ひどい、...) のデータベース、および「提案」 (提案、エラー、私は持っていません) のデータベースを作成してみてください。他に何か)。目標は、データベースを問題に最も役立つ単語に減らすことです (たとえば、最後に 100 単語のみを使用するなど)。

各ツイートはサイズ 100 のベクトルになります。これを使用して、必要な手法を実行します (ナイーブ ベイズ、SVM など...)。

このプロセス全体は、スパム分類のコースで少し前に行ったことの概要です。非常にうまく機能しました (認識率 98%?)。次に、私たちの本当のプロジェクトは、フォーラム上のヘイトメール (「死ね」などのメッセージ) を分類することでした。認識率は 80% だったと思いますが、これはかなり悪かったです。しかし、何もないよりはましです。

200 万件のツイートが分類されていないため、この方法で結果を確認するのは困難です。クロス検証は、1000 サンプルでのみ実行できます。ただの警告

于 2014-10-14T23:05:59.120 に答える