問題タブ [j48]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 機械学習と予測のための優れたトレーニング データ セットを構築するにはどうすればよいですか?
Weka ツールを使用してフットボール (サッカー) の試合を予測するプログラムを作成する学校のプロジェクトがあります。
アルゴリズム (J48 アルゴリズム) は既に存在するため、必要なのはデータだけです。サッカーの試合データを無料で提供している Web サイトを見つけて Weka で試してみましたが、予測がかなり悪く、データが適切に構造化されていないと思います。
モデルの新しい属性とクラスを作成するには、ソースからデータを抽出し、別の方法でフォーマットする必要があります。機械学習予測用の属性とクラスを適切に作成する方法に関するコース/チュートリアル/ガイドを知っている人はいますか? 機械学習アルゴリズムをトレーニングするためのデータセットの属性を選択する最良の方法を説明する標準はありますか? これに対するアプローチは何ですか?
現時点で持っているデータの例を次に示します: http://www.football-data.co.uk/mmz4281/1516/E0.csv
列の意味は次のとおりです。 http://www.football-data.co.uk/notes.txt
r - J48 のプロパティ値の取得
私の質問に続い て 、ノードの値を取得してその名前に連結するために何を追加すればよいか知りたいです。J48 ディシジョン ツリーがあります。
結果として次の文字列を取得します。
次のものを取得したいと思います(値の連結):
私が使用するコードは次のとおりです。
machine-learning - トレーニング セットを完全にモデル化する決定木を生成しますか?
ルールであるデータセットがあり、ルールを分類する際に少なくとも 100% の精度を持つ決定木を生成したいのですが、100% を得ることはできません。minNumObjs を 1 に設定してプルーニングを解除しましたが、正しく分類されたインスタンスは 84% しか得られません。
私の属性は次のとおりです。
元データ:
インスタンスの 100% を分類できない理由と、インスタンスの 100% を分類する方法 (属性を数値にすることを許可しながら) を理解するのを誰かが助けてくれますか?
ありがとう
r - R の J48 ツリー - トレーニングとテストの分類
RのJ48ディシジョンツリーでトレーニングとテストを使用したいのですが、私のコードは次のとおりです。
データを 70% のトレーニングと 30% のテストに分割したいのですが、J48 アルゴリズムを使用してそれを行うにはどうすればよいですか?
どうもありがとう!
r - weka.core.UnsupportedAttributeTypeException: weka.classifiers.trees.j48.C45PruneableClassifierTree: 文字列属性を処理できません
私は次のコードを持っています:
J48アルゴリズムからベイジアンネットワーク図をプロットすることになっています。次のエラーが表示される方法:
問題の解決にご協力ください。CSV からデータを読み取るとうまくいきますが、json からは文字列属性エラーが発生します。
weka - ツリーで誤って分類されたインスタンスが混同行列と一致しない
すべてのルールの誤った分類 (ツリーを参照) の合計は 2097 (895+700+428+74 から) です。しかし、混同行列は 2121 です (これは 1999+122 からのものです)。誰かが不一致を説明できますか?数値が違うのはどうして?
machine-learning - クラス値を使用して意思決定ツリーを解決するWEKA?
私は WEKA と ML にまったく慣れていないので、次の点で私の無知を許してください。私はそれを理解しようとして数時間を無駄にしたので、うまくいけば誰かが私を正しい方向に向けることができます:
USDJPY のデータで J48 ディシジョン ツリーを実行しようとしています。データは .csv ファイルを介してロードされ、クラス値は公称型であり、より具体的には、USDJPY が 20 セッション後に 1% 以上高く取引された場合の TRUE または FALSE の値です。問題は、アルゴリズムを実行すると、デシジョン ツリーが単にクラス値を使用して問題を解決しているだけで、役に立たないことです。クラス属性を予測しようとしているクラス属性以外に *22 の属性があります。
私のデータセットを例の「ガラス」データセットと比較すると、私の問題を説明する 2 つの違いが見つかりません。"glass.arff" は、J48 を (同じ設定で) 実行すると、他の属性を介してクラス値 (ガラスの種類) を予測しようとする (つまり、いくつかの推測が間違っている) と期待どおりに機能します。
ここで何が欠けていますか?属性のリストは次のとおりです。
matrix - 混同行列を計算するにはどうすればよいですか?
これは、私が生成できた WEKA の出力です。残念ながら、混同行列の計算方法がわかりません。誰かがそれを計算するのを手伝ってもらえますか?
a. WEKA 出力を使用して混同行列を作成します。(ヒント: 各リーフ ノードを見て、4 つの象限のそれぞれに該当するインスタンスの数を判断し、すべてのリーフ ノードの結果を集計して、最終的なカウントを取得します)
TP=?
FP=?
FN=?
TN=?
b. 医療診断では、感度、特異度、診断精度の 3 つの指標が一般的に使用されます。感度は TP/(TP+FN) として定義されます。特異性は TN/(FP+TN) として定義されます。診断精度は、感度と特異度の平均として定義されます。上記の混同行列に基づいて診断精度を計算します。
誰かがこれで私を助けることができれば、私はそれを大いに感謝します. ありがとうございました!