問題タブ [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2269 参照

python - トレーニング データとテスト データをスケーリングした後、SVM のパフォーマンスが低下するのはなぜですか?

テキストの感情分析を実行するために scikit-learn を使用しています。現在の私の機能は、単語の頻度カウントです。

以下を実行すると、平均 F 値は約 59% になります。

しかし、StandardScalar() を使用して特徴ベクトルをスケーリングすると、平均 F 値は 49% に低下します。

スケーリングによって SVM のパフォーマンスが向上するはずですが、ここではパフォーマンスが低下しているようです。なぜこれが起こるのですか?どうすれば正しくできますか?

0 投票する
2 に答える
3970 参照

r - サンプル外のデータセットで bag of words 分類器を使用する

最近、Bag-of-Words 分類子を使用して、96% の用語を含むドキュメント マトリックスを作成しました。次に、ディシジョン ツリーを使用して、バッグの単語入力をモデル別にトレーニングし、文が重要かどうかを予測しました。モデルはテスト データセットで非常にうまく機能しましたが、サンプル データセットを使用した場合、予測できませんでした。代わりに、エラーが発生します。

これが私がRで作ったモデルです

これは、約 83% の精度であるテスト データセットで完全に正常に動作します。ただし、このカート モデルを使用してサンプル データセットを予測すると、エラーが発生します。

私が受け取るエラーは、data_random で「C が見つかりません」です。これを機能させるために何をすべきかわかりません。ここでラプラス平滑化は可能ですか??

0 投票する
0 に答える
332 参照

machine-learning - テキスト機能をscikit-learn分類子に渡す方法は?

私はセンチメント分析タスクを行っています。現在、いくつかの言語的特徴またはバイグラム (名詞/形容詞の出現) を抽出しています。このタスクのある時点で、scikit を使用してこの意見を分類する必要があります。このバイグラム、トライグラム、ngrams を scikit Learn の SVM アルゴリズムの実装に渡すにはどうすればよいですか?

0 投票する
2 に答える
2653 参照

machine-learning - Java で Weka を使用してテキストを TF-IDF 形式に変換するにはどうすればよいですか?

2 つの属性を持つ次のサンプル ARFF ファイルがあるとします。

(1) 感情: ポジティブ [1] またはネガティブ [-1]

(2) つぶやき: テキスト

2 番目の属性の値を同等の TF-IDF 値に変換したいと考えています。

ところで、次のコードを試してみましたが、その出力 ARFF ファイルには、それぞれのインスタンスの正の値 (1) の最初の属性が含まれていません。

サンプル出力 ARFF ファイル:

ご覧のとおり、最初のいくつかのインスタンスは問題ありませんが (他の機能と共に -1 クラスが含まれているため)、最後の残りのインスタンスには正のクラス属性 (1) が含まれていません。

つまり、出力 ARFF ファイルの最後のインスタンスの最初の属性として {0 1,...} があったはずですが、それがありません。

0 投票する
1 に答える
2142 参照

machine-learning - 単純ベイズ分類における未知の単語

未知の単語を含むテキスト分類の問題をテストするにはどうすればよいですか? モデルのトレーニングでは、平滑化手法 (Laplace add-1) を使用して、すべての単語がクラスごとに少なくとも 1 カウントを受け取るようにすることができます。

では、テスト段階ではどうでしょうか。トレーニング データに単語が含まれていない場合、それを処理する最善の方法は何ですか? 単純にスキップしますか、それとも 1 のオカレンスを与えますか?

提案や意見をお寄せいただきありがとうございます。具体的には、単純ベイズ分類器を使用しています。

0 投票する
1 に答える
900 参照

r - テキスト分類のための R での特徴ハッシュ

テキスト分類の問題を解決するために R に機能ハッシュを実装しようとしていますが、本来の方法でそれを行っているかどうかはわかりません。私のコードの一部は、この投稿に基づいています:整数を特定の範囲にマッピングするためのハッシュ関数? .

私のコード:

したがって、基本的には、によって返される md5 ハッシュの最後の 5 桁の 16 進数を使用して、文字列を整数に変換していますdigest。質問:

1 - これを実行できるパッケージはありますか? 私は何も見つけていません。digest2 -ハッシュ関数として使用するのは良い考えですか? そうでない場合、どうすればよいですか?

PS: 投稿する前に動作するかどうかをテストする必要がありますが、私のファイルは非常に大きく、多くの処理時間がかかるため、誰かが私を正しい方向に向ける方が賢いと思います。違う!

これについて助けてくれてありがとう!