問題タブ [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
594 参照

python - scikit-learn: いくつかの単語を 1 つの単語の機能として使用するのではなく、コロケーションで使用します

Python と scikit-learn を使用してテキスト分類を行っています。

現在、TfidfVectorizer をベクトライザー (生のテキストを特徴ベクトルに変換するため) として使用し、MultinomialNB を分類器として使用しています。パラメータ ngram_range = (1,2) を使用します ( http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.htmlを参照)。たとえば、1 つの単語とバイグラムを使用します。

テスト セットと CV セットでアルゴリズムを分類してテストした後、精度を向上させたいと考えています。最も有益な機能が表示されます(scikit-learn classifiers の最も有益な機能を取得するにはどうすればよいですか?という質問による)。そして、セットの最も有益な機能には、分類に影響を与えない単語 ( ngram=1) がありますが、バイグラム (単語のコロケーション) では大きな影響を与えることがわかります。

Tfidfvectorizer はコロケーションでこの単語を考慮せず、同じ理由でプリプロセッサを使用できないため、stop_words を使用できません。質問: tfidfvectorizer で一部の単語を除外し、この単語を別のコロケーションに保存するにはどうすればよいですか?

0 投票する
2 に答える
604 参照

machine-learning - 機械学習 - 概念 / 推奨事項

こんにちは、私は機械学習が初めてなので、テキスト分類ソリューションを探しています。Java で書かれた素敵なフレームワークを勧めてもらえますか? WEKAを使おうと思ったのですが、MALLETも聞きました。主な違いはどこですか?

私の目標は、ラベルのないテキストを分類することです。そのため、学習用に約 18 のトピックとトピックごとに 100 のテキストを用意しました。

何をすることをお勧めしますか?また、進め方のちょっとした例やヒントをいただければ幸いです。

0 投票する
2 に答える
1709 参照

solr - Solrでのドキュメントのクラスタリングと分類?

Solr でドキュメントのインデックスを作成しています。ドキュメントは非科学的です。

各ドキュメントにリンクされたカテゴリがあり、教育に使用できます。追加時に新しいドキュメントのカテゴリを割り当てたいと思います。すべてのインデックスを再構築することなく、ドキュメントが常に追加されます。

また、ドキュメントは同じものでもソースが異なる可能性があるため、ドキュメントのクラスタリングを行いたいと考えています。したがって、ドキュメントが追加されると、過去 N 日間にそのようなトピックが既にあるかどうかを検索できます。ある場合は、クラスター ID を保存します。

インデックスのサイズは約 50 万ドキュメントと上昇傾向にあるため、速度が重要です。

したがって、新しいドキュメントごとに計算したいと思います: カテゴリ ID (事前定義されたドキュメントを使用したトレーニングに基づく)、クラスター ID (インデックス全体ではなく、N 日間のみ一致)。

SOLRで作ることは可能ですか?または、別のソリューションを作成することをお勧めします (はいの場合、どのソリューションを使用しますか?)

0 投票する
1 に答える
96 参照

java - ラピッドマイナーの X_validation 演算子で各フォールドを反復処理しますか?

Rapid miner を Java に統合して、Rapid miner でテキスト分類タスクを実行しています。10 分割クロス検証 (x_validation 演算子) を使用しています。各フォールドのテスト/トレーニング分割でサンプルにアクセスする必要がありますか?

私はたくさん試しましたが、各折り目を繰り返すことができませんでしたか? 私はRapid minerを初めて使用するので、ここで立ち往生しています....

助けていただければ幸いです(画像をアップロードするのに十分な評判はありませんが、Javaコードを介してアクセスしている単純な10倍のクロス検証プロセスです)...

0 投票する
1 に答える
123 参照

machine-learning - weka 3.7 エクスプローラーはテキストを分類できません

weka 3.7 エクスプローラーを使用してテキスト分類を行おうとしています。テキストローダーを使用して、2つのテキストファイル(2つのディレクトリclass1とclass2に分かれています)をarffに変換しました。そうする前に、ケースを低く標準化しました。ファイルを weka にロードし、フィルタ stringtowordvector (stopwords、usewordcount、usestoplist、stemmer - snowballstemmer など) を適用すると、変数のリストに変化が見られません。すべての変数 (words ) は、各クラスに対して 1 または 0 として与えられます。

私を助けてください。

これが私のフィルターコマンドです

weka.filters.unsupervised.attribute.StringToWordVector -R first-last -W 1000 -prune-rate -1.0 -C -N 0 -S -stemmer weka.core.stemmers.SnowballStemmer -M 1 -tokenizer "weka.core.tokenizers .WordTokenizer -delimiters \" \r\n\t.,;:\\'\\"()?!\""