“text-classification”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

847 参照

rapidminer - ラピッドマイナーのKNNがメモリの問題を引き起こしているのはなぜですか?

各カテゴリに 100 個のドキュメントがある 20NewsGroup データセットのテキスト分類に取り組んでいます。10 倍の交差検証を使用して Naive Bayes を介してテキストドキュメントを分類します。正常に実行され、最後に結果が得られます。

10倍のクロス検証を使用してKNNで同じことを試みましたが、常に「プロセスの失敗」で終わり、利用可能なメモリよりも多くのメモリが必要であることを示しています。build.xmlとrapidminerGUI.batでrapidminerのヒープスペースを1GBから2.5Gに増やしましたが、何も改善されず（ヒープスペースは問題ではないと思います）、常により多くのメモリを要求することになります。

親切に助けてください、私はそれに行き詰まり、考えられるすべての可能なオプションを試しました

プラットフォームの詳細:

OS: Windows 7 (64 ビット) ソフトウェアバージョン: Rapidminer 5.3 (64 ビット) Java: Java 1.7 (64 ビット)

rapidminer text-classification

2014-02-15T09:26:08.150

0 投票する

0 に答える

363 参照

machine-learning - weka で TF-IDF 以外の機能重み付け方法を使用するにはどうすればよいですか?

1) IG、MI などの機能の重み付け方法を適用して機能を重み付けしたいのですが、StringToWordVector では、weka の機能の重み付けに TF-IDf しか使用できません。

用語の重み付けに TF-IDF 以外の重み付け方法を適用する方法はありますか?

2) Java コードの各機能の TF-IDF 重みにアクセスするにはどうすればよいですか? コードをデバッグしたところ、すべての用語に重み 1.0 が割り当てられていることがわかりました。

3) IG が 0 未満の用語は分類プロセスに役立たず、語彙から常に除外する必要がありますか?

事前にサンクス...

2014-02-15T13:02:00.537

0 投票する

1 に答える

1860 参照

nlp - SVMを使用する場合、TF-IDFは必要ですか?

サポートベクターマシンを使用してフレーズを分類しています。SVM を使用する前に、フレーズベクトルに対して何らかの正規化を行う必要があることを理解しています。一般的な方法の 1 つに TF-IDF があります。

TF-IDF スコアが最も高い用語は、多くの場合、ドキュメントのトピックを最もよく特徴付ける用語です。

しかし、それはまさに SVM が行うことではないでしょうか? ドキュメントを最もよく特徴付ける用語に最大の重みを与えますか?

前もって感謝します：-）

nlp normalization svm tf-idf text-classification

2014-02-16T18:23:25.040

0 投票する

1 に答える

625 参照

machine-learning - 個別のテストセットを使用して、rapidminer で InformationGain を適用する方法は?

私はrapidminerでテキスト分類を扱っています。私は別々のテストとトレーニングの分割を持っています。n 分割クロス検証を使用してデータセットに情報ゲインを適用しましたが、別のテストセットに適用する方法について混乱していますか? 以下添付画像ですここに画像の説明を入力

図では、トレーニングに使用される最初の「ファイルからのドキュメントの処理」からの単語リスト出力を、テストに使用される2番目の「ファイルからのドキュメントの処理」に接続しましたが、削減された機能を2番目の「ドキュメントからの処理」に適用したいと考えていますFiles」はおそらく「Select By Weight」（縮小された次元）演算子から返されるはずですが、2番目の「Process Documents From Files」に提供できない重みを返します。私はたくさん検索しましたが、私のニーズを満たすことができるものを見つけることができませんでしたか?

Rapidminer が個別のテスト/トレイン分割を行い、機能選択を適用することは本当に可能ですか?

これらの重みを単語リストに変換する方法はありますか? リポジトリに書き込むとは言わないでください (これはできません) ?

このようなシナリオでは、異なるテスト/トレーニング分割があり、機能選択を適用する必要がある場合、テスト/トレーニング分割に同じ次元ベクトルがあることを確認するにはどうすればよいですか?

私は本当にそれに閉じ込められています、親切に助けてください...

machine-learning rapidminer text-classification

2014-02-18T12:33:16.157

0 投票する

1 に答える

96 参照

machine-learning - Rapid Miner のサンプルセットから weka インスタンスに変換するにはどうすればよいですか?

weka から使用する機能と、rapidminer から使用する機能が必要です。ラピッドマイナーのサンプルセットをwekaインスタンスに変換していくつかの操作を実行してから、wekaインスタンスに戻すにはどうすればよいですか?

インターネットで「WekaTools」という名前のクラスを見つけましたが、rapidminer(5.3.013) には存在しません

ラピッドマイナー 5.3.013 でこの機能がどこに移動したか教えてもらえますか? または、Rapid miner のサンプルセットから weka Instances に変換するにはどうすればよいですか?

machine-learning rapidminer text-classification

2014-02-19T14:00:51.497

0 投票する

1 に答える

10254 参照

machine-learning - Scikit Learn - テストセットの fit_transform

Scikit Learn を使用して Python でランダムフォレストを使用するのに苦労しています。私の問題は、テキスト分類 (3 つのクラス - ポジティブ/ネガティブ/ニュートラル) に使用し、抽出する特徴は主に単語/ユニグラムであるため、これらを数値特徴に変換する必要があることです。DictVectorizerでそれを行う方法を見つけましたfit_transform：

私の問題は、fit_transformメソッドが約 8000 のインスタンスを含むトレーニングデータセットで動作していることですが、テストセットを約 80000 のインスタンスである数値機能にも変換しようとすると、次のようなメモリエラーが発生します。

何が原因で、回避策はありますか? どうもありがとう！

machine-learning classification scikit-learn random-forest text-classification

2014-02-24T20:13:46.203

0 投票する

0 に答える

325 参照

machine-learning - テキスト分類に関する一般的な質問

私はトピックモデル、分類などは初めてです...今はすでにプロジェクトを行っており、多くの研究論文を読んでいます。私のデータセットは、人間がラベル付けした短いメッセージで構成されています。これは私がこれまでに思いついたものです：

私のデータは短いので、ドキュメント内の潜在語を検出するのに役立つ潜在的ディリクレ割り当て (およびそのすべてのバリアント) について読みました。
これに基づいて、JGibbLDA http://jgibblda.sourceforge.netの Java 実装を見つけましたが、私のデータにはラベルが付けられているため、JGibbLabeledLDA と呼ばれる改善があります https://github.com/myleott/JGibbLabeledLDA
ほとんどの研究論文で、Weka についての良いレビューを読んだので、データセットでこれをいじりました
ただし、ここでも、私のデータセットにはラベルが付けられているため、マルチラベルデータの実装を持つMeka http://sourceforge.net/projects/meka/と呼ばれる Weka の拡張機能を見つけました。
マルチラベルデータについて読むと、one-vs-all やチェーン分類子など、最もよく使用されるアプローチを知っています...

私がここにいる理由は、次の質問に対する答えを得たいからです。

LDA は私の問題に対する適切なアプローチですか?
LDA を分類器 (NB、SVM、バイナリ関連性、ロジスティック回帰など) と一緒に使用する必要がありますか?それとも、LDA は、新しい目に見えないデータの分類器/推定器として機能するのに「十分」ですか?
JGibbLDA / JGibbLabeledLDA からの出力をどのように解釈する必要がありますか。これらのファイルから、メッセージ全体 (各単語だけでなく) にどの単語/ラベルが割り当てられているかを知るにはどうすればよいですか?
Weka/Meka を使用して、前の質問で必要なものを取得するにはどうすればよいですか (LDA が探しているものではない場合)

誰か、または複数の人が、これを行う必要がある方法を理解するのを手伝ってくれることを願っています. すべての一般的な考え方はここでは問題ではありません。文学から実践への移行方法がわからないだけです。ほとんどの論文は、実験をどのように実行するかについて十分な説明を提供していないか、トピックに関する私の背景には技術的すぎます.

ありがとう！

machine-learning weka lda topic-modeling text-classification

2014-03-02T19:41:13.833

0 投票する

1 に答える

747 参照

machine-learning - LibSVM 形式のファイルで LibShortText を使用する

使ってみたいのですLibShortTextが、仕組みがよくわかりません。

から、README関数はテキストファイル用のようです。ただし、既にLibSVM 形式になっているファイルを分類する必要があるため、text-train.pyおよびのような関数は機能text-predict.pyしないと思います...?

また、次のREADMEようにも述べています。

apreprocessor directoryが何かわかる人いますか...？

LibShortText documentationから、私のようなファイルで動作する「中レベルの分類モデル - 学習者」があることがわかります。しかし、私はそれがどのように機能するのか理解していません！たとえば、LIBSVM が持っているすべてのパラメーターを持っているわけではありません...そして、結果を保存する方法や理解する方法を見つけることに成功していません (重みと予測はどこにありますか?)。

誰かがこのことをどのように説明できるかを説明できれば、私は本当に感謝しています（私はかなりの時間テストしてきました）...ありがとう！

machine-learning svm text-classification libshorttext

2014-03-02T23:41:48.197

問題タブ [text-classification]

Reference