問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Naive Bayes Text Classifier - ドキュメントに「未分類」のラベルを付ける必要がある場合の決定
Naive Bayes Text Classifier (Java) を設計および実装しました。私は主にツイートを 20 のクラスに分類するために使用しています。ドキュメントが私が使用するクラスに属する確率を判断するには
単語の袋が本当にどのクラスにも属してはならないかどうかを判断する最良の方法は何ですか? P(クラスで発生する単語のバッグ)の最小しきい値を送信でき、すべてのクラスがそのしきい値を下回っている場合は、ドキュメントを未分類として分類できることを認識していますが、これにより、この分類子が機密になるのを防ぐことができます.
未分類のクラスを作成し、分類できないと思われるドキュメントでそれをトレーニングするオプションはありますか?
ありがとう、
マーク
- 編集 - -
私はちょうど考えていました - P(グローバルに発生する単語の袋)*(ドキュメント内の単語数) の最大しきい値を設定できます。これは、主に一般的な単語 (通常はフィルターで除外したいツイート) で構成されるドキュメントを意味します。"はい、あなたに賛成です"。除外されます。- これについてのご意見もお待ちしております。
または、標準偏差を見つけて、それが低い場合は未分類にする必要があると判断する必要がありますか?
svm - SVM と KNN を使用してテキスト ドキュメントを分類するにはどうすればよいですか
ほとんどすべての例は数字に基づいています。テキスト文書では、数字の代わりに単語があります。
では、これらのアルゴリズムをテキスト ドキュメントの分類に使用する方法の簡単な例を示していただけますか。
コード例は必要ありませんが、ロジックのみが必要です
擬似コードは非常に役立ちます
python - 数値データと名義データを処理できる分類アルゴリズム
これはおそらく、可能な分類アルゴリズムに関する初心者の質問なので、ご容赦ください。以下の例のように見える公称属性と数値属性の両方を含むデータセットがあります (実際のデータセットではありません)。クラスを述語して精度を得るには、どのようなアルゴリズムが最適でしょうか (できれば Python/Java で)。
公称データには [1,-1] の数値を含めることができます。ここで、1 は存在を表し、-1 は存在しないことを表します。または、['YES', 'NO'] または ['Type1', ['Type1', 「Type2」、「Type3」]。数値は、属性の可能性を表すために使用されます。たとえば [0-1] の場合、値が 1 に近いほど、true と評価される可能性が高くなります。
java - 属性タイプを文字列に変更する方法 (WEKA - CSV から ARFF)
WEKA ライブラリを使用して SMS SPAM 分類子を作成しようとしています。「ラベル」と「テキスト」の見出しを持つ CSV ファイルがあります。以下のコードを使用すると、2 つの属性を持つ ARFF ファイルが作成されます。
現在、テキスト属性は、各メッセージのテキストを値として持つ公称属性としてフォーマットされているようです。しかし、すべてのインスタンスからのすべてのテキストのリストではなく、テキスト属性を文字列属性にする必要があります。テキスト属性を文字列として持つことで、StringToWordVector フィルターを使用して分類器をトレーニングできます。
次のような String 属性を作成できることはわかっています。
しかし、現在の属性を置き換える方法や、CSV を読み込む前に属性の種類を設定する方法がわかりません。
新しい文字列属性を挿入して、現在の公称属性を削除しようとしましたが、これによりすべての SMS テキストが削除されます。renameAttributeValueも使用してみましたが、これは属性タイプの変更には機能しないようです。
編集: このNominalToString フィルターが機能すると思われますが、使用方法がわかりません。
どんな提案でも大歓迎です。ありがとう!
machine-learning - 単純ベイズ分類器を使用したドキュメント分類
シンプルなナイーブ ベイズ アルゴリズムを使用して mahout でドキュメント分類子を作成しています。現在、私が持っているデータ (ドキュメント) の 98% はクラス A であり、クラス B はわずか 2% です。私の質問は、クラス A ドキュメントとクラス B ドキュメントの割合に大きなギャップがあるため、分類器はまだ正確にトレーニングできますか?
私が考えているのは、大量のクラス A 文書を無視し、私が持っているデータセットを「操作」して、文書の構成に大きなギャップが生じないようにすることです。したがって、最終的に得られるデータセットは、クラス B の 30% とクラス A の 70% で構成されます。