“text-classification”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

550 参照

classification - Weka を使用したテキスト分類

私は Weka の初心者で、テキスト分類に使用しようとしています。分類のために StringToWordVector フィルターを適用する方法を見てきました。私の質問は、分類しているテキストにさらに機能を追加する方法はありますか? たとえば、POS タグと固有表現タグをテキストに追加したい場合、これらの機能を分類器でどのように使用すればよいでしょうか?

2014-03-23T06:10:45.930

0 投票する

1 に答える

4752 参照

machine-learning - テキスト分類におけるステミング - 精度が低下しますか?

Mahout を使用してテキスト分類システムを実装しています。ストップワードの削除とステミングは、テキスト分類の精度を向上させるのに役立ちます。私の場合、ストップワードを削除すると精度が向上しますが、ステミングはあまり役に立ちません。ステマーを適用すると、精度が 3 ～ 5% 低下することがわかりました。porter Stemmer と k-stem で試しましたが、どちらの場合もほぼ同じ結果が得られました。

分類には単純ベイズアルゴリズムを使用しています。

事前にどんな助けでも大歓迎です。

machine-learning mahout stemming text-classification

2014-03-24T07:26:56.787

0 投票する

1 に答える

816 参照

python - 文を使用した Sklearn の増分トレーニング SGD 分類器

センテンスの Sklearn 線形モデルで利用可能な SGDClassifier を段階的にトレーニングする方法。通常はドキュメントでトレーニングしますが、文章で 1 つずつトレーニングしたいのですが、感情分析のためにツイート用に段階的にトレーニングしたいと考えています。

タスク: ツイートの感情分析疑い: ラベル付きツイートの段階的なトレーニング

前もって感謝します。

python machine-learning scikit-learn sentiment-analysis text-classification

2014-03-27T13:11:55.653

0 投票する

1 に答える

1333 参照

classification - t検定を使用してデータセットの分類器を比較するにはどうすればよいですか?

任意の t 検定を使用して、データセットの分類子を比較したいと考えています。ここで私の質問は、この比較に何を使用する必要があるかです。元。分類子 1 精度、精度、再現率などの列を作成します。分類子 2 についても同じです。その後、任意の t 検定を適用します。これは論理的ですか？そうでない場合、どうすればこの比較を行うことができますか? そして、この比較を行うことができるツールはどれですか?

前もって感謝します

classification weka document-classification text-classification

2014-04-01T02:01:40.583

0 投票する

1 に答える

1205 参照

machine-learning - WEKA API を使用して、トレーニングとテストセットで LSA を実行する

テキスト分類を行うには、Weka とその AttributeSelection アルゴリズム LatentSemanticAnalysis を使用する必要があります。データセットを LSA を適用するトレーニングセットとテストセットに分割しています。LSA に関するいくつかの投稿を読みましたが、それを使用してデータセットを分離し、互換性を維持する方法がわかりませんでした。これは私がこれまでに持っているものですが、メモリが不足しています...:

Edit1 @Jose の返信に応えて、ソースコードの新しいバージョンを追加しました。これにより、OutOfMemoryError が発生します。

Edit2 私が得ているエラー:

machine-learning nlp weka document-classification text-classification

2014-04-07T19:48:22.407

0 投票する

1 に答える

1372 参照

r - マルチクラス分類タスクの精度、再現率、および F1 スコアをカウントするために使用できる R のパッケージをお勧めできますか

Rのマルチクラス分類タスクの精度、F1、リコールを計算するために使用できる推奨パッケージはありますか? ROCRを使用しようとしましたが、次のように述べています:

r text-classification precision-recall

2014-04-08T07:39:54.207

0 投票する

1 に答える

411 参照

data-mining - スパムフィルタリングの次元削減

スパムフィルタリング用のいくつかの分類アルゴリズムの分類パフォーマンスを比較する必要がある実験を行っています。Naive Bayes、SVM、J48、k-NN、RandomForests など。WEKA データマイニングツールを使用しています。文献を調べているうちに、大きく2つのタイプに分類できるさまざまな次元削減方法について知るようになりました-

特徴削減: 主成分分析、潜在意味分析など
特徴選択: カイ 2 乗、InfoGain、GainRatio など

また、Jose Maria による WEKA のチュートリアルを彼のブログで読みました。

このブログで、彼は次のように書いています。それで、次元削減がスパムフィルタリングの場合に役立つかどうか混乱していますか？

さらに、ドキュメント頻度と TF-IDF に関する文献を、特徴削減手法の 1 つとして読みました。しかし、それがどのように機能し、分類中にどのように機能するかはわかりません。

weka、チェーンフィルター、分類器などの使用方法を知っています。私が直面している問題は、機能の選択/削減 (TF-IDF を含む) について十分な考えがないためです。どのように、どの機能を選択するかを決定できません。研究を意味のあるものにするために組み合わせる必要があるテクニックと分類アルゴリズム。また、カイ二乗、情報ゲインなどで使用する必要がある最適なしきい値についてもわかりません。

StringToWordVector クラスには IDFTransform のオプションがありますが、それを TRUE に設定し、InfoGain などの機能選択手法を使用することは理にかなっていますか?

ガイドしてください。可能であれば、次元削減について詳しく学び、実験を有意義に計画できるリソースへのリンクを提供してください。

data-mining weka text-mining spam-prevention text-classification

2014-04-09T10:38:38.913

0 投票する

1 に答える

458 参照

machine-learning - Weka テキスト分類から結果のドキュメントを出力する方法

そのため、15,000 ツイートのセットに対して多項単純ベイズ分類アルゴリズムを実行しています。最初に各ツイートを Weka の StringToWordVector 関数に基づいて単語特徴のベクトルに分割します。次に、結果を新しいarffファイルに保存して、トレーニングセットとしてユーザーに提供します. このプロセスを別の 5k ツイートのセットで繰り返し、トレーニングセットから派生した同じモデルを使用してテストセットを再評価します。

私たちがやりたいことは、weka がテストセットで分類した各文をその分類とともに出力することです...アルゴリズムのパフォーマンスと精度の一般的な情報 (精度、再現率、f スコア) を見ることができますが、私たちの分類器に基づいて、weka によって分類された個々の文を見ることができません...とにかくこれを行うことはありますか?

もう 1 つの問題は、最終的に教授がさらに 2 万件のツイートを提供し、この新しい文書を分類することを期待することです。ただし、次のようにこれを行う方法はわかりません。

助けてくれてありがとう！

machine-learning weka sentiment-analysis text-classification

2014-04-22T00:01:52.307

問題タブ [text-classification]

Reference