問題タブ [document-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
496 参照

java - Java & Heritrix 3.1.x: Web コンテンツの解析?

Heritrix 3.x の開発者向けドキュメントはほとんど古くなっているため (ほとんどのクラスが変更されているか、コードが大幅に書き直されているか、リファクタリングされているため、ほとんどが Heritrix 1.x に関連しています)、関連するドキュメントを教えてください。実際の Web ページ コンテンツの抽出を処理するシステムのクラス (または複数のクラス)?

私がやりたいことは、Heritrix がクロールしようとしている Web ページのコンテンツを取得し、Web ページのコンテンツに分類子を適用することですか? (構造的特徴の分析など) この機能は ContentExtractor クラスとその多くのサブクラスに分散されている可能性があると思いますが、私がしようとしているのは、Web ページのコンテンツ全体または読み取り可能/解析可能なストリーム。Heritrix が正規表現を適用するコンテンツ (html) はどこにありますか (リンク、特定のファイルの種類などを見つけるため)。

0 投票する
1 に答える
128 参照

cluster-computing - テキストクラスタリングのアルゴリズムのパフォーマンスを判断するには?

K-Means++ を使用した初期シードを使用して、テキスト クラスタリングに K-Means アルゴリズムを使用しています。

ストップワード辞書の変更や max_no_of_random_iterations の増加などの変更を加えて、アルゴリズムをより効率的にしようとしています。

異なる結果が得られます。それらを比較するにはどうすればよいですか?ここでは混同行列の考え方を適用できませんでした。出力は、何らかの値またはタグを取得するドキュメントの形式ではありません。ドキュメントはセットに移動します。重要なのは、相対的な「適切なクラスタリング」またはセットです。

では、この出力セットのパフォーマンスをマークするための標準的な方法はありますか?

混同行列が答えの場合、その方法を説明してください。

ありがとう。

0 投票する
1 に答える
904 参照

machine-learning - Libsvm: SVM 正規化は 0 または 0.001 から始まります

ドキュメントの分類に libsvm を使用しています。

私は自分のプロジェクトでのみ svm.h と svm.cc を使用しています。

その構造体 svm_problem は、ゼロ以外の svm_node の配列を必要とするため、スパースを使用します。

[5,10] の範囲で言うと、tf-idf 単語のベクトルを取得します。[0,1] に正規化すると、すべての 5 が 0 になります。

svm_train に送信するときにこれらのゼロを削除する必要がありますか?

これらを削除しても情報が減少せず、結果が悪化することはありませんか?

0 ではなく 0.001 から正規化を開始する必要がありますか?

一般に、SVM では [0,1] で正規化しても情報は減らないのでしょうか?

0 投票する
1 に答える
1959 参照

machine-learning - Libsvm モデル ファイル形式 型番なし

ドキュメントの分類に libsvm を使用しています。プロジェクトで svm.cc と svm.h を使用しています。次に、svm_train を呼び出します。svm_save_model を使用してモデルをファイルに保存します。

私はそこにカテゴリを持っています。svm モデル ファイルは次のとおりです。

index:value の形式のベクトル値の前の 1 と -1 は何ですか?

0 投票する
1 に答える
2692 参照

machine-learning - SVM の tf-idf ベクトルを正規化する方法は?

ドキュメントの分類にサポート ベクター マシンを使用しています。各ドキュメントの機能セットはtf-idfベクトルです。サイズ N の各 tf-idf ベクトルを持つ M 個のドキュメントがあります。M * N 行列を指定します。

M のサイズはちょうど 10 ドキュメントで、tf-idf ベクトルは 1000 単語ベクトルです。したがって、私の機能はドキュメントの数よりもはるかに大きくなります。また、各単語は 2 つまたは 3 つの文書に出現します。各機能(単語)を正規化している場合、つまり[0,1]での列の正規化

もちろん、それは私に0、1を与えます。

そして、それは私に悪い結果をもたらします。私はrbf 関数C = 0.0312、ガンマ = 0.007815 でlibsvmを使用しています

推奨事項はありますか?

さらにドキュメントを含める必要がありますか? またはシグモイドまたはより良い正規化方法のような他の関数?

0 投票する
4 に答える
2493 参照

machine-learning - スケーラブルまたはオンラインのコア外マルチラベル分類器

この問題について、過去 2 ~ 3 週間、頭を悩ませてきました。各サンプルが複数のラベルに属する可能性があるマルチラベル (マルチクラスではない) の問題があります。

トレーニング データとして約 450 万のテキスト ドキュメント、テスト データとして約 100 万のテキスト ドキュメントがあります。ラベルは約 35K です。

私はscikit-learnを使用しています。特徴抽出のために、以前はまったくスケーリングしない TfidfVectorizer を使用していましたが、現在は HashVectorizer を使用しています。これはより優れていますが、ドキュメントの数を考えるとそれほどスケーラブルではありません。

SKlearn は、任意の推定器をフィードできる OneVsRestClassifier を提供します。マルチラベルの場合、LinearSVC と SGDClassifier のみが正しく機能していることがわかりました。私のベンチマークによると、SGD はメモリと時間の両方で LinearSVC より優れています。だから、私はこのようなものを持っています

しかし、これにはいくつかの深刻な問題があります。

  1. OneVsRest には、コア外学習を不可能にする partial_fit メソッドがありません。そのための代替手段はありますか?
  2. HashingVectorizer/Tfidf はどちらも単一のコアで動作し、n_jobs パラメーターはありません。ドキュメントのハッシュ化に時間がかかりすぎています。代替案/提案はありますか?また、n_features の値は正しいですか?
  3. 100 万のドキュメントでテストしました。ハッシュには 15 分かかり、clf.fit(X, y) になると、OvR が内部で LabelBinarizer を使用し、次元 (yx クラス) のマトリックスを割り当てようとするため、MemoryError を受け取りますが、これはかなり割り当てが不可能です。私は何をすべきか?
  4. 信頼性が高くスケーラブルなマルチラベル アルゴリズムを備えた他のライブラリはありますか? Genism と mahout は知っていますが、両方ともマルチラベルの状況に対応するものはありませんか?
0 投票する
1 に答える
178 参照

python - Python による自動ドキュメント分類: スポーツに分類されるゲーム記事

私は約 500 の事前に分類された記事のコーパスを持っています。各カテゴリで最も一般的に使用される名詞と形容詞を取り上げ、関連性によって並べ替えました。

各カテゴリ (世界、ビジネス、テクノロジー、エンターテイメント、科学、健康、スポーツ) には、数百の単語が関連付けられています。

この記事に問題があります: http://www.techhive.com/article/2052311/hands-on-with-the-2ds-an-entry-level-investment.html

ゲームについてです。「ゲーム、プレーヤーなど」などの単語は、私が見た記事に基づいて、スポーツと密接に関連しています。

この記事のスコアは次のとおりです。

ご覧のとおり、テクノロジーは 59 でトップですが、62 でスポーツに追い抜かれています。

コーパスを数千の記事に増やせば、この問題は解決するのではないかと期待していますが、可能性が高いかどうかはわかりません。

この問題を解決するためのあなたのアイデアは何ですか?

「Twitter、Facebook、Technology、Nintendo など」のような景品用の単語のリストを作成することを考えました。これにより、記事が存在する場合に自動的に Technology に分類されます。唯一の問題は、これを行うための言葉を見つけることと、ビジネス/世界などとの衝突を避けることです.

ありがとう。

0 投票する
1 に答える
2644 参照

machine-learning - テキスト ファイルを ARFF 形式に変換する

TextDirectoryLoaderを使用して、一連のテキストまたはWebページファイルをarffファイルに変換する方法を知っています。

単一のテキスト ファイルを Arff ファイルに変換する方法を知りたいです。

どんな助けでも大歓迎です。

0 投票する
1 に答える
197 参照

data-mining - 階層的クラスタリングを使用してドキュメント クラスタを作成する方法

類似性に基づいてドキュメントをクラスター化しようとしています。アイデアは、2 つのドキュメントの類似した単語を照合し、その数を両方のドキュメントの単語の総数で割ることです。各値は 2D 配列に格納されます。

したがって、8 つのドキュメントがある場合、各ドキュメントを他のドキュメントと比較した結果は、配列の各インデックスの上のテーブルに 1 つのドキュメントを示すように格納されます。したがって、ドキュメント 0,0 1,1 2,2 ... は同じであるため、常に値が 1 になります。

類似したドキュメントをクラスタ化するにはどうすればよいですか。つまり、値が互いに近いのは誰ですか?