問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - ドキュメント分類、しきい値検出のための重心アルゴリズム
特定のドメインに関連するドキュメントのコレクションがあり、そのコレクションに基づいて重心分類器をトレーニングしました。私がやりたいことは、さまざまなドメインからのドキュメントを分類器に供給し、それらがトレーニングされたドメインにどの程度関連しているかを判断したいということです。これにコサイン類似度を使用して数値を取得できますが、私の質問は、しきい値を決定する最良の方法は何ですか?
このために、さまざまなドメインからいくつかのドキュメントをダウンロードし、それらの類似性スコアを調べてしきい値を決定できます。しかし、これは進むべき道なのだろうか?統計的には良いように聞こえるだろうか? これに対する他のアプローチは何ですか?
machine-learning - 文書分類のためのIDF(逆文書頻度)の計算
ドキュメント分類でIDF(逆ドキュメント頻度)を計算することに疑問があります。トレーニング用の複数のドキュメントを含む複数のカテゴリがあります。次の式を使用して、ドキュメント内の各用語のIDFを計算しています。
私の質問は次のとおりです。
- 「コーパス内のドキュメントの総数」とはどういう意味ですか?ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
- 「ドキュメント一致用語の数」とはどういう意味ですか?用語一致ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
algorithm - ドキュメントの分類に使用できる分類アルゴリズムはどれですか?
ねえ、これが私の問題です、
ドキュメントのセットが与えられた場合、各ドキュメントを事前定義されたカテゴリに割り当てる必要があります。
n-gramアプローチを使用して各ドキュメントのテキストコンテンツを表現し、次に、所有しているトレーニングデータでSVM分類器をトレーニングしました。
何か理解できなかった場合は訂正してください。
ここでの問題は、カテゴリが動的である必要があるということです。つまり、私の分類器は、新しいカテゴリの新しいトレーニングデータを処理する必要があります。
したがって、たとえば、特定のドキュメントをカテゴリA、カテゴリB、またはカテゴリCとして分類するように分類器をトレーニングした後、カテゴリDの新しいトレーニングデータが与えられた場合、分類器に「カテゴリD」の新しいトレーニングデータ。
要約すると、古いトレーニングデータ(3つのカテゴリ)と新しいトレーニングデータ(新しい/見えないカテゴリ)を組み合わせて、分類器を再度トレーニングしたくありません。分類器をその場でトレーニングしたい
これをSVMで実装することは可能ですか?そうでない場合は、いくつかの分類アルゴリズムをお勧めしますか?または私を助けることができる本/紙。
前もって感謝します。
algorithm - ドキュメントの特徴 ベクトル表現
ドキュメントを分類するドキュメント分類器を構築しています。
したがって、最初のステップは、トレーニング目的で各ドキュメントを「特徴ベクトル」として表すことです。
調査の結果、Bag of Words アプローチまたは N-gram アプローチのいずれかを使用して、ドキュメントをベクトルとして表現できることがわかりました。
各ドキュメント (スキャンされた PDF と画像) のテキストは OCR を使用して取得されるため、一部の単語にはエラーが含まれています。また、これらのドキュメントで使用されている言語についての予備知識もありません (ステミングは使用できません)。
したがって、私が理解している限り、n-gram アプローチを使用する必要があります。または、ドキュメントを表す他のアプローチはありますか?
また、より明確な全体像を把握し、それがどのように機能するかを理解するために、誰かが私を N-Gram ガイドにリンクしていただければ幸いです。
前もって感謝します
machine-learning - スタンドアロン データセットを使用して weka でテキスト分類を検証することに関する質問
スパム メッセージと非スパム メッセージの分類に weka を使用しようとしています。
ラベル付けされた何十万ものスパム メッセージと、別の何十万ものラベル付けされた非スパム メッセージをトレーニング データ セットとして使用stringtowordvector
して、クラシアーをトレーニングするためのフィルターとして使用します。の結果crossValidateModel
は非常に良好です。ただし、トレーニング セットから他のメッセージを分類する信頼性を確保するために、スタンドアロン テスト セットを使用してクラシアーを評価したいと考えています。
私の質問:
stringtowordvector
トレーニング arff ファイルとは独立したスタンドアロンの .arff ファイルを作成するために、テスト データ セットに対しても使用する必要があります。2 つのデータ セットの両方に存在する同じ単語には、それぞれ 2 つの異なる属性インデックスがあります。 2 つの .arff ファイル。たとえば、「money」という単語10
は、トレーニング .arff ファイルではマトリックス インデックスを持っていますが、テスト .arff ファイル内では50th
属性としてインデックス化されています。
既にトレーニングされた分類器が 2 つのデータ セット内のこれらすべての単語を一致させないのではないかと心配しています。これらの単語には異なるマトリックス インデックスがあるためです。より具体的に{1 1,2 1,3 5}
は、トレーニング .arff のベクトルは を"i want to to to to to...."
表しますが、テスト用の .arff ファイルでは、この同じベクトルが を表し"money does not not not not ....."
ます。では、この検証はどのように信頼できるのでしょうか?
ではcrossValidateModel
、同じ arff ファイルのインスタンスを使用するため、weka はインデックスと単語を正しく一致させる必要があります。私の目的は、膨大な数のラベル付きデータセットを使用してトレーニングし、それを使用して、フィードされたラベルなしメッセージを 1 つ分類することです。1 つのメッセージを分類するたびに、このメッセージを .arff ファイルに変換する必要があります。このファイルには、トレーニング .arff ファイルとはまったく異なる属性リストとマトリックス インデックスが含まれています。(私は Windows ツールを使用していません。プログラムで weka .jar API を使用しています)。何か助けはありますか?
svm - SVM線形カーネルにおけるTF-IDFとTFの違い
IDF は定数だからです。1 つの次元のすべての値に定数を掛けます。
SVM 線形カーネルでは、結果は異なりますか?
machine-learning - 適合率または再現率は大声で話しますか?
「A」と「B」の2つのアプローチを使用して、テキスト分類研究プロジェクトを評価しているとします。アプローチ「A」を使用すると、精度がax%向上しますが、「B」を使用すると、リコールがax%向上します。どうすればAまたはBのアプローチが優れていると言えますか?
statistics - 分類を実行する方法
Wekaを使用して、ドキュメントを2つのカテゴリ(category1とcategory2)に分類しようとしています。
両方のカテゴリに属する600のドキュメントで構成されるトレーニングセットを収集しました。分類されるドキュメントの総数は1,000,000です。
したがって、分類を実行するために、StringToWordVectorフィルターを適用します。フィルタから次のようにtrueを設定します。-IDF変換-TFransform-OutputWordCounts
このプロセスについていくつか質問したいと思います。
1)過剰適合を回避するために、トレーニングセットとしていくつのドキュメントを使用する必要がありますか?
2)フィルターを適用した後、トレーニングセット内の単語のリストを取得します。分類器でより良い結果を得るには、それらのいずれかを削除する必要がありますか、それとも何の役割も果たしませんか?
3)分類方法として、私は通常naiveBayesを選択しますが、得られる結果は次のとおりです。
SMOを使用すると、結果は次のようになります。
では、ドキュメント分類では、どちらが「より良い」分類子ですか?私が持っているような小さなデータセットにはどちらが良いですか?naiveBayesはビッグデータセットでパフォーマンスが向上することを読みましたが、データセットを増やすと、「過剰適合」効果が発生しますか?また、カッパ統計について、受け入れられるしきい値はありますか、それともカテゴリが2つしかないため、この場合は問題ではありませんか?
長い投稿で申し訳ありませんが、分類結果を改善するために1週間努力しましたが、各カテゴリにより適したドキュメントを取得しようとしましたが、成功しませんでした。
machine-learning - 文書分類のための教師あり潜在的ディリクレ割り当て?
いくつかのグループには、すでに人間が分類したドキュメントがたくさんあります。
モデルをトレーニングし、後でそれを使用して未知のドキュメントを分類するために使用できるldaの修正バージョンはありますか?
machine-learning - KNNアルゴリズムによる教師あり用語の重み付け方法の使用
KNN分類器で教師あり用語重み付けモデルを使用することは可能ですか?テストドキュメントにラベルがなく、監視対象の用語重み付けモデルで重みを計算するためにラベル付きドキュメントが必要である限り、テストドキュメントのベクトルをどのように表すのか疑問に思います。誰か助けてもらえますか?