ツイーターの mysql ダンプがあります。このダンプに分類子を作成したいと思います。使用できるパッケージがあるかどうか、および使用する必要がある分類子のタイプを知りたいです。Javaを使用してこの分類器を構築したいと思います。
2 に答える
WEKA を使用することをお勧めします: http://www.cs.waikato.ac.nz/ml/weka/ -- WEKA には多数のデータ マイニング アルゴリズムとユーティリティが含まれています。
データの分類子とフィルターのさまざまな構成と組み合わせを試すことができる GUI があり、適切なモデルを構築したら、Java プログラム (これも Java) に WEKA を埋め込み、それを使用することができます。クラスを予測するための事前に構築されたモデル、またはそれを使用してモデルを継続的に改良します。または、WEKA を使用して実験した後、結果の決定木などを独自のアプリケーションに実装できるため、WEKA を含める必要はありません。
おそらく、ツイートの「bag-of-words」表現を使用し、多層パーセプトロン、ナイーブベイ、J48 などの分類器を使用することをお勧めします。すべて WEKA で実験できます。
このページをチェックしてください: http://weka.wikispaces.com/Text+categorization+with+WEKA -- ページの下部にテキスト分類の例があります。
乾杯、
http://mloss.org/software/downloads/ このリンクにはいくつかのパッケージがあります。(機械学習に関連)これは、同じことをすることに興味があるかもしれない人のためのものです。したがって、私自身の質問に答えます。楽しみ。