問題タブ [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - マルチクラスマルチラベル分類の適合率/再現率
マルチクラスのマルチラベル分類、つまり、2 つ以上のラベルがあり、各インスタンスが複数のラベルを持つことができる分類の精度と再現率の測定方法を計算する方法を考えています。
neural-network - ANN / MLPによる異種クラス認識
私は、他のデータセットで動作するように見える、分類する 3 層の人工ニューラル ネットワークをまとめました。私が作成したいくつかの人工的なデータセットをいじってみると、1 つのクラスが 1 つの機能または別の機能で陽性である場合、2 つのクラス間で正しく予測できませんでした。
明らかに、クラス 1 は、機能 1 または機能 2 が 1 に等しいかどうかを尋ねることで識別できますが、データセットを正しく予測するアルゴリズムを取得できません (データセットには、このパターンに続く 20 の例があります)。
ANN/MLP はこのタイプのパターンを認識できますか? もしそうなら、私は何が欠けていますか? そうでない場合、このタイプのパターン (おそらく SVM) を予測できる他の方法はありますか?
coursera が提供するオンライン コースで使用されていた Octave を使用しました。ここにコードのほとんどをリストしましたが、実行すると構造が少し異なります。ご覧のとおり、1 番目と 2 番目のレイヤーでバイアス ユニットを使用しています。また、2 番目のレイヤーの隠れユニットの数を 1 ~ 5 に変更しましたが、ランダムな推測よりも改善されていません。
machine-learning - マルチクラス ロジスティック回帰が、OvR 分類器で最も可能性の高いラベルを選択するのとは異なる結果をもたらすのはなぜですか?
SK-learn の LogisticRegression 分類器を次の one-vs-rest 分類器と組み合わせて使用すると、単独で複数クラスの分類を行うよりも f スコアがわずかに低いことに気付きました。
ロジスティック回帰分類子のドキュメントには、1 対すべての戦略を使用していると記載されているため、どのような要因がパフォーマンスの違いを説明できるのか疑問に思っています。私の one-vs-rest LR 分類器は、LR 分類器が単独で行うよりも、クラスの 1 つを過剰に予測しているようです。
machine-learning - 機械学習 : 履歴書・プロフィール入力 , 応募者分類
私のデータセットは、現在の仕事、収入、過去の会社、大学などのさまざまな属性を持つ人々のプロフィール/履歴書で構成されています。
ラベル付きのサンプルを含むトレーニング データ セットがあります。
どの機械学習アルゴリズムを使用すればよいですか?
scipy - SciPy 疎行列のテスト データ予測エラー
このようなLIBSVM形式のデータをSciPy疎行列に入力します。私が尋ねたこの質問で説明されているように、トレーニングセットはマルチラベルおよびマルチクラスです: scikit-learnでのデータの形式を理解する
次に with を使用OneVsRestClassifier
しLinearSVC
てデータをトレーニングします。
データをテストしたいときは、次のようにします。
ここでエラーが発生します。トレースバックをそのままここにダンプします。
トレースバック (最新の呼び出しが最後):
ファイル「test.py」の 36 行目
予測 = clf.predict(X_)
ファイル「/usr/lib/pymodules/python2.7/sklearn/multiclass.py」、151行目、予測
return predict_ovr(self.estimators_, self.label_binarizer_, X)
ファイル "/usr/lib/pymodules/python2.7/sklearn/multiclass.py"、67 行目、predict_ovr 内
Y = np.array([_predict_binary(e, X) for e in estimators])
ファイル「/usr/lib/pymodules/python2.7/sklearn/multiclass.py」、40行目、_predict_binary
return np.ravel(estimator.decision_function(X))
ファイル "/usr/lib/pymodules/python2.7/sklearn/svm/base.py"、728 行目、decision_function 内
self._check_n_features(X)
ファイル "/usr/lib/pymodules/python2.7/sklearn/svm/base.py"、748 行目、_check_n_features 内
X.shape[1]))
ValueError: X.shape[1] は 690 ではなく 3421 である必要があります。
入力形式が疎行列の場合に、なぜより多くの機能を探しているのかわかりません。テストラベルを正しく予測するにはどうすればよいですか?
machine-learning - 動的クラス セットを使用したマルチラベル分類の制限
手元に問題文があり、それが機械学習で解決できるかどうかを知る必要があります。こんなふうになります :-
ユーザーがドキュメントをアップロードできるシステムがあるので、xxxZxxx.xxx という名前のファイルがあるとします。
ユーザーはシステムのフォルダー構造に複数のレベルを移動し、ファイルを配置します (たとえば、A/B/C/D/Z/xxxZxxx.xxx)。
ファイル名を読み取り、 それが配置されるパスを提案するシステムを作成する必要があります。
この場合、ファイル名にはパスの最後の部分が含まれています。これはビジネス オブジェクト ディレクトリですが、含まれていない場合があります。このようなパスとドキュメントは 10^5 の順序で存在します。
また、新しいパス、つまりビジネス オブジェクトが時間とともに追加される可能性があるため、これは、増加し続ける約 10^5 クラスのマルチクラス分類になります。
これは解決可能ですか?
失敗した特徴ベクトルとして、文字の袋 (言葉の袋から着想を得た) を使用しようとしました。
これに従うことができるアプローチに関するコメントはありますか? 他の情報が必要な場合はお知らせください。質問を編集するか、タグを変更します。