問題タブ [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Naive Bayes: 不均衡なテスト データセット
バイナリテキスト分類にscikit-learn Multinomial Naive Bayes分類器を使用しています(分類器は、ドキュメントがカテゴリXに属しているかどうかを教えてくれます)。バランスの取れたデータセットを使用してモデルをトレーニングし、バランスの取れたテスト セットを使用してテストしましたが、結果は非常に有望です。
この分類子は、リアルタイムで実行し、ランダムに投げられたドキュメントを常に分析する必要があります。
ただし、本番環境で分類器を実行すると、誤検知の数が非常に多くなるため、精度が非常に低くなります。理由は簡単です。分類器がリアルタイム シナリオで遭遇するネガティブ サンプルはもっと多くあり (約 90% の確率)、これは私がテストとトレーニングに使用した理想的なバランスのとれたデータセットに対応していません。
トレーニング中にこのリアルタイムのケースをシミュレートする方法はありますか、または使用できるトリックがありますか (ドキュメントが分類器に適しているかどうかを確認するための前処理を含む)?
リアルタイムの場合と同じ比率で不均衡なデータセットを使用して分類器をトレーニングすることを計画していましたが、単純ベイズが負のクラスに偏り、正のクラスでの再現率が失われるのではないかと心配しています。
アドバイスをいただければ幸いです。
machine-learning - クラスの割合が異なる複数のクラスへの誤った分類
私は次の問題を奨励しました: 私は多くのテキスト文書を分類しようとしています.
20 のクラスがあります。1 つは正常、19 は異常です。ナイーブ ベイズ分類を使用すると、次の結果が得られます。分類は 19 クラスでうまく機能しますが、「正常」クラスでは多くの誤分類エラーが発生しました。「正常」カテゴリのほとんどすべてのケースが、他の (非正規) カテゴリとして分類されました。
私の質問があります:
- How should I select training set for "normal" class? (Now, I just fit to classifier set of text with "normal" category, with 1/20 proportion).
- Can classifier be specified this way: if probability of belonging to
some class less then certain threshold then classifier must set up
category for this sample (e.g. normal)?
twitter - RapidMiner を使用したツイート DB でトークン化とストップワードが機能しない
データベースに含まれる Twitter コメントをトークン化してストップ ワード フィルターを適用したいのですが、Process Document は何もしません。私は何を間違っていますか?
私の目標は、これらのフィルターを適用することですが、コメントを単一の単語ベクトルではなく行に保持することです。
machine-learning - サービスプロバイダーが使用する迷惑メールフィルタリング(ユーザーカスタマイズ)
さまざまな電子メール サービス プロバイダーによって実装されているスパム フィルタリング技術について学んでいます。正確にはこれを分類問題として扱い、ベイジアン、SVM(Support Vector Machines)、KNNなどのさまざまな手法を使用して分類用のモデルを作成します。
これらの方法論まですべて理解しました。しかし、Gmail のスパム フィルタリングのユーザー カスタマイズを見て、少し混乱しました (任意のメールをスパムまたは非スパムとして選択できます)。このオプションをどの程度正確に実装するか。ユーザーごとに個別の分類モデルを作成しますか、それともこれを行うための他のオプション/手法はありますか?
Webで検索してみましたが、満足のいく結果が得られませんでした。