問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
svm - LSA/SVD を使用した文書分類
サポート ベクター マシン (SVM) を使用してドキュメント分類を行おうとしています。私が持っている書類はメールの集まりです。SVM 分類子をトレーニングするドキュメントが約 3000 個あり、分類が必要なテスト ドキュメント セットが約 700 個あります。
最初に、バイナリ DocumentTermMatrix を SVM トレーニングの入力として使用しました。テスト データを使用した分類では、約 81% の精度が得られました。DocumentTermMatrix は、いくつかのストップワードを削除した後に使用されました。
このモデルの精度を向上させたかったので、LSA/SVD ベースの次元削減を使用して、結果の削減された係数を分類モデルへの入力として使用してみました (元のバッグの 20、50、100、および 200 の特異値で試しました)。 〜3000語)。分類のパフォーマンスは、いずれの場合も悪化しました。(LSA/SVD を使用するもう 1 つの理由は、65 レベルの応答変数の 1 つに関するメモリの問題を解決することでした)。
LSA/SVD 分類のパフォーマンスを向上させる方法について、誰かがいくつかの指針を提供できますか? これは特定のデータやコードのない一般的な質問であることは認識していますが、デバッグを開始する場所について専門家からの情報をいただければ幸いです。
参考までに、テキストの前処理 (パッケージ: tm、snowball、lsa) と分類モデルの構築 (パッケージ: kernelsvm) に R を使用しています。
ありがとうございました。
document-classification - 二項文書分類で最も差別的な用語をどのように見つけますか?
特徴選択を使用して、二項分類タスクに最も役立つドキュメント内の用語を見つけたいと考えています。
私は周りを見てきました:
これは、相互情報量とカイ二乗検定の指標について言及しています
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB にもいくつかの関数があります。
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB での機能の選択
上記のうち、relieff と rankfeatures が有望に見えます。
データが正規分布に従っているかどうかわかりません。どのテクニックが最高のパフォーマンスを発揮するかについて何か考えはありますか? あなたが提案する新しい方法はありますか?焦点は、分類精度を高めることです。
ありがとうございました!
java - 単語レベルの言語モデルに Lingpipe を使用する
私は単語レベルの言語モデルを lingpipe で動作させようとしています。私が遭遇したすべての例とチュートリアルは、character-n-gram モデルを示しています。lingpipe を使用して単語レベルのモデルをトレーニングし、そのモデルを使用して他のドキュメントでテストするにはどうすればよいですか?
さらに、TokenizedLM はシリアル化できないことに気付きました。毎回再トレーニングを行うことなく、保存して後でロードする方法はありませんか?
最後に、自分でコーディングせずにこれを行うことができる他のフレームワーク/ツールはありますか?
text - ニュース記事データセット
私はニュース分類のプロジェクトを行っています。基本的に、システムは事前に定義されたトピック (スポーツ、政治、国際など) に基づいてニュース記事を分類します。システムを構築するには、システムをトレーニングするための無料のデータ セットが必要です。
これまでのところ、数時間のグーグル検索とここからのリンクの後、私が見つけることができた唯一の適切なデータセットはthisです。これで十分だと思いますが、もっと見つけようと思います。
必要なデータセットは次のとおりです。
- タイトルだけでなく、完全なニュース記事が含まれています
- 英語です
- XML や db ではなく、.txt 形式で
誰でも私を助けることができますか?
python - libsvm(python)での出力の抑制
分類タスクにPythonのlibsvm(svmutils)を使用しています。分類子は正確です。ただし、次のような出力が得られます。
このダイアログを抑制する方法はありますか?分類器は完全にうまく機能します、私はただ興味があります。また、その"Accuracy"
略は何ですか?そして、なぜこれが私の場合0%なのですか?(データは80次元で重複していません。合計4つのクラスです。また、適切に正規化しています。)
text - スポーツ、エンターテイメント、健康などのカテゴリとすべてのサブカテゴリのトレーニング データが必要
私は ML で分類アルゴリズムを試しており、スポーツ、天気、テクノロジー、サッカー、クリケットなどのさまざまなカテゴリを区別するためにモデルをトレーニングするためのコーパスを探しています。
これらのカテゴリのデータセットをどこで見つけることができるかについての指針が必要です。
私にとって別の選択肢は、ウィキペディアをクロールして 30 以上のカテゴリのデータを取得することですが、これを行うためのより良い方法があれば、ブレインストーミングと意見を求めました。
編集
これらのカテゴリのバッグ オブ ワード アプローチを使用してモデルをトレーニングします。テスト - Web ページのコンテンツに応じて、新しい/未知の Web サイトをこれらの事前定義されたカテゴリに分類します。
machine-learning - ナイーブベイズを使用したテキスト分類
NaiveBayesを使用してテキスト分類機械学習の問題を実行しています。私はそれぞれの言葉を特徴として持っています。私はそれを実装することができました、そして私は良い精度を得ています。
単語のタプルを機能として使用することはできますか?
たとえば、政治とスポーツの2つのクラスがあるとします。政府と呼ばれる言葉が両方に現れるかもしれません。ただし、政治ではタプル(政府、民主主義)を持つことができますが、クラススポーツではタプル(政府、スポーツマン)を持つことができます。したがって、政治に関する新しいテキスト記事が登場した場合、タプル(政府、民主主義)の確率はタプル(政府、スポーツマン)よりも確率が高くなります。
私はこれを行うことによって、私はナイーブベイズ問題の独立性の仮定に違反しているので、これを求めています。なぜなら、私は単一の単語も特徴として考えているからです。
また、機能に重みを付けることも考えています。たとえば、3タプルの機能は、4タプルの機能よりも重みが小さくなります。
理論的には、これら2つのアプローチは、単純ベイズ分類器の独立性の仮定を変更しませんか?また、私はまだ言及したアプローチから始めていませんが、これにより精度が向上しますか?精度は上がらないかもしれませんが、同じ精度を得るために必要なトレーニングデータの量は少なくなります。
machine-learning - wekaを使用してディスカッショントピックに基づいて分類するための入力として電子メールデータを表す方法は?
データが電子メール、つまりテキスト データの場合、分類子への入力はどうなりますか? ディスカッションのトピックに基づいて分類を実行するために考慮する必要がある電子メールの属性/機能セットは何ですか?
php - NaiveBayes による期待値最大化アルゴリズムの実装
優れたテキスト フィルタリングを備えた Naive-Bayes Document 分類を実装しました。統計結果を高い精度で受け入れました。EM アルゴリズムを使用して結果を強化する必要があります。
しかし、単純ベイズの結果に EM アルゴリズムを適用するか、データにアルゴリズムを適用して最初からやり直すかはわかりません。したがって、結果を比較できます。
どちらの場合も、この問題に関する EM アルゴリズムを理解する必要があります。
十分に説明されたドキュメントは高く評価されます
algorithm - レシピのプログラムによる分類に使用されるアルゴリズム
レシピのさまざまなプロパティの統計分析に基づいて、プログラムでレシピを分類することに興味があります。Breakfast
つまり、レシピを、、、またはユーザー入力なしLunch
で分類したいと思います。Dinner
Dessert
私が利用できるプロパティは次のとおりです。
- レシピタイトル(チキンサラダなど)
- レシピの説明(レシピを説明する任意のテキスト)
- 調理方法(このレシピの準備に必要な手順)
- 準備と調理時間
- レシピの各材料とその量
幸いなことに、すでに分類されている約10,000のレシピのサンプルセットがあり、これらのデータを使用してアルゴリズムを教えることができます。私の考えは、朝食のレシピでシロップという単語が統計的に頻繁に現れるか、 1カップ以上の砂糖を必要とするレシピがデザートである可能性が90%であるかなど、パターンを探すことです。レシピを複数の次元で分析し、必要に応じて重みを微調整すると、かなり正確なものを取得できると思います。
この問題に取り組む際に調査するためのいくつかの良いアルゴリズムは何でしょうか?k-NNのようなものが役立つでしょうか、それともこのタスクにより適したものがありますか?