問題タブ [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
rapidminer - ラピッドマイナーのKNNがメモリの問題を引き起こしているのはなぜですか?
各カテゴリに 100 個のドキュメントがある 20NewsGroup データセットのテキスト分類に取り組んでいます。10 倍の交差検証を使用して Naive Bayes を介してテキスト ドキュメントを分類します。正常に実行され、最後に結果が得られます。
10倍のクロス検証を使用してKNNで同じことを試みましたが、常に「プロセスの失敗」で終わり、利用可能なメモリよりも多くのメモリが必要であることを示しています。build.xmlとrapidminerGUI.batでrapidminerのヒープスペースを1GBから2.5Gに増やしましたが、何も改善されず(ヒープスペースは問題ではないと思います)、常により多くのメモリを要求することになります。
親切に助けてください、私はそれに行き詰まり、考えられるすべての可能なオプションを試しました
プラットフォームの詳細:
OS: Windows 7 (64 ビット) ソフトウェア バージョン: Rapidminer 5.3 (64 ビット) Java: Java 1.7 (64 ビット)
machine-learning - weka で TF-IDF 以外の機能重み付け方法を使用するにはどうすればよいですか?
1) IG、MI などの機能の重み付け方法を適用して機能を重み付けしたいのですが、StringToWordVector では、weka の機能の重み付けに TF-IDf しか使用できません。
用語の重み付けに TF-IDF 以外の重み付け方法を適用する方法はありますか?
2) Java コードの各機能の TF-IDF 重みにアクセスするにはどうすればよいですか? コードをデバッグしたところ、すべての用語に重み 1.0 が割り当てられていることがわかりました。
3) IG が 0 未満の用語は分類プロセスに役立たず、語彙から常に除外する必要がありますか?
事前にサンクス...
nlp - SVMを使用する場合、TF-IDFは必要ですか?
サポート ベクター マシンを使用してフレーズを分類しています。SVM を使用する前に、フレーズ ベクトルに対して何らかの正規化を行う必要があることを理解しています。一般的な方法の 1 つに TF-IDF があります。
TF-IDF スコアが最も高い用語は、多くの場合、ドキュメントのトピックを最もよく特徴付ける用語です。
しかし、それはまさに SVM が行うことではないでしょうか? ドキュメントを最もよく特徴付ける用語に最大の重みを与えますか?
前もって感謝します :-)
machine-learning - 個別のテスト セットを使用して、rapidminer で InformationGain を適用する方法は?
私はrapidminerでテキスト分類を扱っています。私は別々のテストとトレーニングの分割を持っています。n 分割クロス検証を使用してデータセットに情報ゲインを適用しましたが、別のテスト セットに適用する方法について混乱していますか? 以下添付画像です
図では、トレーニングに使用される最初の「ファイルからのドキュメントの処理」からの単語リスト出力を、テストに使用される2番目の「ファイルからのドキュメントの処理」に接続しましたが、削減された機能を2番目の「ドキュメントからの処理」に適用したいと考えていますFiles」はおそらく「Select By Weight」(縮小された次元)演算子から返されるはずですが、2番目の「Process Documents From Files」に提供できない重みを返します。私はたくさん検索しましたが、私のニーズを満たすことができるものを見つけることができませんでしたか?
Rapidminer が個別のテスト/トレイン分割を行い、機能選択を適用することは本当に可能ですか?
これらの重みを単語リストに変換する方法はありますか? リポジトリに書き込むとは言わないでください (これはできません) ?
このようなシナリオでは、異なるテスト/トレーニング分割があり、機能選択を適用する必要がある場合、テスト/トレーニング分割に同じ次元ベクトルがあることを確認するにはどうすればよいですか?
私は本当にそれに閉じ込められています、親切に助けてください...
machine-learning - Rapid Miner のサンプルセットから weka インスタンスに変換するにはどうすればよいですか?
weka から使用する機能と、rapidminer から使用する機能が必要です。ラピッドマイナーのサンプルセットをwekaインスタンスに変換していくつかの操作を実行してから、wekaインスタンスに戻すにはどうすればよいですか?
インターネットで「WekaTools」という名前のクラスを見つけましたが、rapidminer(5.3.013) には存在しません
ラピッド マイナー 5.3.013 でこの機能がどこに移動したか教えてもらえますか? または、Rapid miner のサンプル セットから weka Instances に変換するにはどうすればよいですか?
machine-learning - Scikit Learn - テスト セットの fit_transform
Scikit Learn を使用して Python でランダム フォレストを使用するのに苦労しています。私の問題は、テキスト分類 (3 つのクラス - ポジティブ/ネガティブ/ニュートラル) に使用し、抽出する特徴は主に単語/ユニグラムであるため、これらを数値特徴に変換する必要があることです。DictVectorizer
でそれを行う方法を見つけましたfit_transform
:
私の問題は、fit_transform
メソッドが約 8000 のインスタンスを含むトレーニング データセットで動作していることですが、テスト セットを約 80000 のインスタンスである数値機能にも変換しようとすると、次のようなメモリ エラーが発生します。
何が原因で、回避策はありますか? どうもありがとう!
machine-learning - テキスト分類に関する一般的な質問
私はトピックモデル、分類などは初めてです...今はすでにプロジェクトを行っており、多くの研究論文を読んでいます。私のデータセットは、人間がラベル付けした短いメッセージで構成されています。これは私がこれまでに思いついたものです:
- 私のデータは短いので、ドキュメント内の潜在語を検出するのに役立つ潜在的ディリクレ割り当て (およびそのすべてのバリアント) について読みました。
- これに基づいて、JGibbLDA http://jgibblda.sourceforge.netの Java 実装を見つけましたが、私のデータにはラベルが付けられているため、JGibbLabeledLDA と呼ばれる改善があります https://github.com/myleott/JGibbLabeledLDA
- ほとんどの研究論文で、Weka についての良いレビューを読んだので、データセットでこれをいじりました
- ただし、ここでも、私のデータセットにはラベルが付けられているため、マルチラベル データの実装を持つMeka http://sourceforge.net/projects/meka/と呼ばれる Weka の拡張機能を見つけました。
- マルチラベル データについて読むと、one-vs-all やチェーン分類子など、最もよく使用されるアプローチを知っています...
私がここにいる理由は、次の質問に対する答えを得たいからです。
- LDA は私の問題に対する適切なアプローチですか?
- LDA を分類器 (NB、SVM、バイナリ関連性、ロジスティック回帰など) と一緒に使用する必要がありますか?それとも、LDA は、新しい目に見えないデータの分類器/推定器として機能するのに「十分」ですか?
- JGibbLDA / JGibbLabeledLDA からの出力をどのように解釈する必要がありますか。これらのファイルから、メッセージ全体 (各単語だけでなく) にどの単語/ラベルが割り当てられているかを知るにはどうすればよいですか?
- Weka/Meka を使用して、前の質問で必要なものを取得するにはどうすればよいですか (LDA が探しているものではない場合)
誰か、または複数の人が、これを行う必要がある方法を理解するのを手伝ってくれることを願っています. すべての一般的な考え方はここでは問題ではありません。文学から実践への移行方法がわからないだけです。ほとんどの論文は、実験をどのように実行するかについて十分な説明を提供していないか、トピックに関する私の背景には技術的すぎます.
ありがとう!
machine-learning - LibSVM 形式のファイルで LibShortText を使用する
使ってみたいのですLibShortText
が、仕組みがよくわかりません。
から、README
関数はテキストファイル用のようです。ただし、既にLibSVM 形式になっているファイルを分類する必要があるため、text-train.py
およびのような関数は機能text-predict.py
しないと思います...?
また、次のREADME
ようにも述べています。
apreprocessor directory
が何かわかる人いますか...?
LibShortText documentationから、私のようなファイルで動作する「中レベルの分類モデル - 学習者」があることがわかります。しかし、私はそれがどのように機能するのか理解していません!たとえば、LIBSVM が持っているすべてのパラメーターを持っているわけではありません...そして、結果を保存する方法や理解する方法を見つけることに成功していません (重みと予測はどこにありますか?)。
誰かがこのことをどのように説明できるかを説明できれば、私は本当に感謝しています(私はかなりの時間テストしてきました)...ありがとう!