問題タブ [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R での多クラス分類
特定のアカウントのツイートがあります。各ツイートを調べて、ビジネス、音楽、スポーツなどのクラス ラベルに分類したいと考えています。
トレーニング データを作成するための私のアプローチは、各クラス ラベルにいくつかのキーワードを割り当てることです。たとえば、
- 「ビジネス」のキーワードは、起業家、仕事、GDP などです。
- 「音楽」のキーワードは、曲、ジャンル、アルバムなどです。</li>
トレーニング データの .CSV ファイルには 2 つの列があります 1. キーワード 2. クラス
これは正しい方法ですか?
前もって感謝します!
multilabel-classification - R の mlr パッケージを使用したマルチラベル テキスト分類
テキスト データに対してマルチラベル マルチクラス分類を実行するモデルをトレーニングする必要があります。
私は現在、このリンクの指示に従って、 R で mlr パッケージを使用して同じことをしようとしています -
1) 他に推奨されるパッケージはありますか?
2) そうでなければ、私はこの場所で立ち往生しています (上記の記事で説明されているように)
「分類」はNULLです
ヘルプ/指示をいただければ幸いです。
ありがとう。
更新:-「タスク」オブジェクトを作成しようとしています。以下のコード-
次のエラーに直面します -
makeSupervisedTask("multilabel"、data、target、weights、blocking) のエラー: データの列名にターゲット変数が含まれていません: 10
解決した
makeMultilabelTask() 関数への入力として与えられたチュートリアル リンクの酵母データと同様に、入力データ フレームを必要な形式で取得した後、トレーニングすることができました。
machine-learning - マルチラベル マルチクラスの SKlearn で複数の推定量を組み合わせる
私は sklearn でアンサンブル メソッドを研究しています: sklearn ensemble。例 1.11.5.1 (ページの下部、VotingClassifier) のように、いくつかの異なる推定量をトレーニングし、結果を結合しようとしています。ただし、私の問題はマルチクラス マルチラベルであり、これはサポートされていません。
マルチクラス マルチラベル データを分類するために、複数の異なるタイプの推定量からの結果をどのように組み合わせることができますか?
各ラベルの確率を出力して平均してみましたが、結果は個々のモデルよりも悪いです。ありがとう。
python - マルチラベル分類でF1測定値を計算するには?
私は文カテゴリ検出問題に取り組んでいます。各文が複数のカテゴリに属する例:
複数のカテゴリを予測できる分類器を実装しました。複数のカテゴリに属する合計 587 の文があります。2 つの方法で精度スコアを計算しました。
例のすべてのラベルが予測したかどうか?
コード:
出力:
すべての例で正しく予測されたラベルの数は?
コード:
出力:
問題: これらはすべて、予測スコアとグラウンド トゥルース ラベルを比較して計算された精度スコアです。しかし、F1 スコア (マイクロ平均化を使用)、精度、再現率も計算したいと考えています。グラウンド トゥルース ラベルがあり、予測をそれらのグラウンド トゥルース ラベルと一致させる必要があります。しかし、このようなタイプのマルチラベル分類の問題にどのように取り組むべきかわかりません。Pythonでscikit-learnまたはその他のライブラリを使用できますか?
performance - パフォーマンス SVMlight マルチラベル分類 (特徴: 1000)
現在、マルチラベル分類に取り組んでいます。分類器として SVMlight を使用し、マルチラベル問題を 2 値化しました。つまり、私の場合、1000 回以上の分類が実行されます。
機能サイズを 1000 に固定しています。モデルのトレーニングには 3 日以上かかります (2 GHz Intel Core 2 Duo、8 GB)。そんなに時間がかかるのが一般的かどうか、またはパフォーマンスを向上させる方法について何かアドバイスをもらえますか? 高性能機への変更は大きな効果があると思いますか?
前もって感謝します!
python - マルチラベル分類用のトレーニング データセットを準備する
ここのコードに従っただけです(sklearn 0.17のマイナーな変更を加えて)。その例では、データは単なるリストまたは numpy 配列です。ここで、おもちゃのトレーニング データセットをディスクに準備し、それを使用datasets.load_files
してマルチラベル分類に読み込みます。ただし、単純にload_files
規則に従って同じファイルを複数のフォルダーにコピーしても、 のリスト (ラベル セット) のリストは作成されませんdataset.target
。
では、マルチラベル分類用にデータセットを準備する正しい方法は何ですか?
machine-learning - 機械学習を使用してイベントのグループを全体として分類する方法
過去 24 時間のアプリケーション エラーのリストをチェックする毎日のタスクを自動化したいと考えています。
- すべてのエラーは、6 つの異なるプールのいずれかに属することができます
- すべてのエラーにはタイムスタンプがあります
- 各プールにいくつのエラーが発生するかは事前にわかりません
次のようなルールを使用して、各プールのステータスを緑、黄、または赤に分類する必要があります。
- 1 つのプールでまったくエラーがない場合 -> 緑
- プールにエラーがあるが、特定のエラーが 4 時間以上連続して持続しない場合 -> 黄色
- プールにエラーがあり、特定のエラーが 4 時間以上連続して続く場合 -> 赤
この問題は、従来のプログラミングまたはファジーアプローチを使用して簡単に解決できますが、可能であれば機械学習アプローチを使用して解決する方法を知りたいです。
私がこれまで見てきた分類手法には、特定の FEATURES を持つ TRAINING Examples で構成された TRAINING SET があります。
分類子はこのトレーニング セットに対してトレーニングされ、TEST SET に対してさらに検証され、結果の MODEL を使用して新しいインスタンスが分類されます。
したがって、分類は「新しい単一インスタンス用」であり、「セット全体」ではありません。
たとえば、ANN を使用する場合、すべてのサンプルが持つ各機能のノードがあり、
- すべてのトレーニング サンプルを通じて ANN をトレーニングします
- テストセットに対してテストします
- 結果のモデルに、分類する新しいケースを入力します (一度に 1 つずつ、個別に)。
自動化する必要があるタスクは異なります。
プールごとに (全員に同じロジックを個別に使用します)、(新しい単一のイベント/エラーではなく、全体として) 緑、黄、または赤に基づいて分類する必要があります。一時的に分離された可変数のイベント/エラー。
私の質問は、ML アプローチを使用して解決できる問題ですか? はいの場合、問題にどのようにアプローチする必要があるか (完全な解決策ではなく、ヒントが必要です)。