問題タブ [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
550 参照

classification - Weka を使用したテキスト分類

私は Weka の初心者で、テキスト分類に使用しようとしています。分類のために StringToWordVector フィルターを適用する方法を見てきました。私の質問は、分類しているテキストにさらに機能を追加する方法はありますか? たとえば、POS タグと固有表現タグをテキストに追加したい場合、これらの機能を分類器でどのように使用すればよいでしょうか?

0 投票する
1 に答える
4752 参照

machine-learning - テキスト分類におけるステミング - 精度が低下しますか?

Mahout を使用してテキスト分類システムを実装しています。ストップワードの削除とステミングは、テキスト分類の精度を向上させるのに役立ちます。私の場合、ストップワードを削除すると精度が向上しますが、ステミングはあまり役に立ちません。ステマーを適用すると、精度が 3 ~ 5% 低下することがわかりました。porter Stemmer と k-stem で試しましたが、どちらの場合もほぼ同じ結果が得られました。

分類には単純ベイズ アルゴリズムを使用しています。

事前にどんな助けでも大歓迎です。

0 投票する
1 に答える
816 参照

python - 文を使用した Sklearn の増分トレーニング SGD 分類器

センテンスの Sklearn 線形モデルで利用可能な SGDClassifier を段階的にトレーニングする方法。通常はドキュメントでトレーニングしますが、文章で 1 つずつトレーニングしたいのですが、感情分析のためにツイート用に段階的にトレーニングしたいと考えています。

タスク: ツイートの感情分析 疑い: ラベル付きツイートの段階的なトレーニング

前もって感謝します。

0 投票する
1 に答える
1333 参照

classification - t検定を使用してデータセットの分類器を比較するにはどうすればよいですか?

任意の t 検定を使用して、データ セットの分類子を比較したいと考えています。ここで私の質問は、この比較に何を使用する必要があるかです。元。分類子 1 精度、精度、再現率などの列を作成します。分類子 2 についても同じです。その後、任意の t 検定を適用します。これは論理的ですか?そうでない場合、どうすればこの比較を行うことができますか? そして、この比較を行うことができるツールはどれですか?

前もって感謝します

0 投票する
1 に答える
1205 参照

machine-learning - WEKA API を使用して、トレーニングとテスト セットで LSA を実行する

テキスト分類を行うには、Weka とその AttributeSelection アルゴリズム LatentSemanticAnalysis を使用する必要があります。データセットを LSA を適用するトレーニング セットとテスト セットに分割しています。LSA に関するいくつかの投稿を読みましたが、それを使用してデータセットを分離し、互換性を維持する方法がわかりませんでした。これは私がこれまでに持っているものですが、メモリが不足しています...:

Edit1 @Jose の返信に応えて、ソース コードの新しいバージョンを追加しました。これにより、OutOfMemoryError が発生します。

Edit2 私が得ているエラー:

0 投票する
1 に答える
1372 参照

r - マルチクラス分類タスクの精度、再現率、および F1 スコアをカウントするために使用できる R のパッケージをお勧めできますか

Rのマルチクラス分類タスクの精度、F1、リコールを計算するために使用できる推奨パッケージはありますか? ROCRを使用しようとしましたが、次のように述べています:

0 投票する
1 に答える
411 参照

data-mining - スパム フィルタリングの次元削減

スパムフィルタリング用のいくつかの分類アルゴリズムの分類パフォーマンスを比較する必要がある実験を行っています。Naive Bayes、SVM、J48、k-NN、RandomForests など。WEKA データ マイニング ツールを使用しています。文献を調べているうちに、大きく2つのタイプに分類できるさまざまな次元削減方法について知るようになりました-

  1. 特徴削減: 主成分分析、潜在意味分析など
  2. 特徴選択: カイ 2 乗、InfoGain、GainRatio など

また、Jose Maria による WEKA のチュートリアルを彼のブログで読みました

このブログで、彼は次のように書いています。それで、次元削減がスパムフィルタリングの場合に役立つかどうか混乱していますか?

さらに、ドキュメント頻度と TF-IDF に関する文献を、特徴削減手法の 1 つとして読みました。しかし、それがどのように機能し、分類中にどのように機能するかはわかりません。

weka、チェーンフィルター、分類器などの使用方法を知っています。私が直面している問題は、機能の選択/削減 (TF-IDF を含む) について十分な考えがないためです。どのように、どの機能を選択するかを決定できません。研究を意味のあるものにするために組み合わせる必要があるテクニックと分類アルゴリズム。また、カイ二乗、情報ゲインなどで使用する必要がある最適なしきい値についてもわかりません。

StringToWordVector クラスには IDFTransform のオプションがありますが、それを TRUE に設定し、InfoGain などの機能選択手法を使用することは理にかなっていますか?

ガイドしてください。可能であれば、次元削減について詳しく学び、実験を有意義に計画できるリソースへのリンクを提供してください。

0 投票する
1 に答える
458 参照

machine-learning - Weka テキスト分類から結果のドキュメントを出力する方法

そのため、15,000 ツイートのセットに対して多項単純ベイズ分類アルゴリズムを実行しています。最初に各ツイートを Weka の StringToWordVector 関数に基づいて単語特徴のベクトルに分割します。次に、結果を新しいarffファイルに保存して、トレーニングセットとしてユーザーに提供します. このプロセスを別の 5k ツイートのセットで繰り返し、トレーニング セットから派生した同じモデルを使用してテスト セットを再評価します。

私たちがやりたいことは、weka がテスト セットで分類した各文をその分類とともに出力することです...アルゴリズムのパフォーマンスと精度の一般的な情報 (精度、再現率、f スコア) を見ることができますが、私たちの分類器に基づいて、weka によって分類された個々の文を見ることができません...とにかくこれを行うことはありますか?

もう 1 つの問題は、最終的に教授がさらに 2 万件のツイートを提供し、この新しい文書を分類することを期待することです。ただし、次のようにこれを行う方法はわかりません。

助けてくれてありがとう!