問題タブ [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - テキスト分類における特徴選択
私は現在、特徴選択に焦点を当てて、テキスト分類について研究しています。特徴選択機能(特に、情報ゲイン、カイ2乗、オッズ比、相互情報量など)を提供するテキスト分類に使用できるソフトウェア/プログラムを誰かに提案してもらえますか?
ありがとう、よろしく=)
python - Pythonで単純ベイズを使用したドキュメント分類
私はPythonで単純ベイズ分類器を使用してドキュメント分類に関するプロジェクトを行っています。同じために nltk python モジュールを使用しました。ドキュメントはロイターのデータセットからのものです。ステミングやストップワードの除去などの前処理手順を実行し、索引用語の tf-idf の計算に進みました。これらの値を使用して分類器をトレーニングしましたが、精度は非常に低いです (53%)。精度を上げるにはどうしたらいいですか?
machine-learning - データセットに 1 クラスのインスタンスしか含まれていない場合、機械学習はどのようなアプローチを使用しますか?
特定のドメインのデータセットがあります (たとえば、スポーツ - 1 クラス)。私がやりたいのは、Web ページを分類子/クラスタラーにフィードしたときに、そのインスタンス (Web ページ) がスポーツに関連しているかどうかに関係なく結果を取得したいということです。
weka のほとんどの分類器は、LibSVM (ラッパー) を除いて、単項クラスのデータセットを処理できません。私は LibSVM でいくつかのテストを行いましたが、問題は関連のないデータセットでのテスト中にあり、インスタンスが空であっても、それらすべてが正しく分類されます! 助言がありますか?
ここで余弦類似度を使用するとどうなるでしょうか。
machine-learning - インスタンスの数またはインスタンスのコンテンツがより重要 (機械学習)?
ドキュメント分類ドメインで言えば、1000 個のインスタンスのデータセットがあるが、インスタンス (ドキュメント) の内容がかなり小さい場合です。また、たとえば 200 個のインスタンスの別のデータセットがありますが、個々のインスタンスにはより豊富なコンテンツがあります。IDF が私の関心事ではない場合、インスタンスの数はトレーニングで本当に重要になりますか? 分類アルゴリズムはそれを考慮に入れていますか?
ありがとう。サム
java - テキスト分類、ツールの重心アルゴリズム?
ここで説明したように、Java でテキスト分類用の重心アルゴリズムを提供するツールを知っていますか?
matlab - matlabでセル配列を分類する
ニュースのデータセットでテキスト分類を行いたい。、、などsubject
の機能がたくさんあります。これらの機能はすべて、構造体の1つのセル配列に格納され、各構造体は次のようになります。keyword
summary
それらをで分類したいのですclass = classify(test, train, target, 'diaglinear');
が、これらの関数は入力として配列のみを受け取り、セルや構造体を受け入れません。
特徴の量が異なるため、このセル配列を1つの多次元配列に変換できません(たとえば、1つのサブジェクトに2つの単語があり、他のサブジェクトに3つの単語があります)。
私に何ができる?
data-mining - Joaquim の SVM ライトを使用した 3 分割交差検証
Joaquim の SVM ライトを使用して、3 分割の交差検証を行う必要があります。Cross Validation と SVM は私にとって初めてのことであり、正しく行っているかどうかわかりません。私はこれまでに何をしましたか?次のモデルの機能を使用して、fold1.txt fold2.txt fold3.txt という 3 つのファイルにデータを変換しました。
1 特徴の数:1 特徴の数:1 ...
また、トークンを使用してwords.txtというファイルを作成しました。行数は機能の数です。私はすべて正しく行いましたか?
そのため、3 分割交差検証を行う必要がありますが、Joaquim の SVM ライトでそれを行う方法がわかりません。3 つのファイルを使用して svm light を学習および分類し、テストおよびトレーニングとして使用するファイルを選択する方法がわかりません。それを行うには、スクリプトまたはプログラムを実行する必要がありますか?
みんなに感謝
チアゴ
probability - Weka での単純ベイズ分類器の確率計算
単純ベイズ分類器がテキスト分類でどのように機能するかを理解したいのですが、特に確率の計算はどのようになっていますか?
属性 event1 event2
(0.4) (0.6)
2006 平均 1 0 標準。開発者 0.1667 0.1667 重みの合計 1 2 精度 1 1
私のデータには、クラス「event2」のインスタンスが 2 つと、クラス「event1」のインスタンスが 1 つあります。したがって、通常、クラスの確率は次のようになります: P(event1)=1/3=0.33 および P(event2)=2/3=0.66 しかし、単純ベイズでは: P(event1)=0.3 および P(event2)=0.6
属性「2006」の確率の計算方法も知りたい
助けはありますか?
filter - wekaの下のStringToWordVectorフィルター
私のデータはStringToWordVectorフィルターを通過します。StringToWordVectorは、バイナリの存在/不在インジケーター、単語の頻度、またはTF-IDFスコアを出力できます。wekaでのこのフィルターのデフォルト出力は何ですか?
artificial-intelligence - トレーニングセットが不完全なドキュメント分類
アドバイスをお願いします。すべてが共通の属性を共有するドキュメントのコレクションがあります(たとえば、フランス語が表示されます)。これらのドキュメントの一部は、このコレクションに関連しないものとしてマークされています(たとえば、フレンチキスが表示されます)が、すべてのドキュメントが識別されるとは限りません。他のどのドキュメントが属していないかを把握するために使用する最良の方法は何ですか。