問題タブ [rweka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rでプロットするために(WEKA分類器から)決定木を解析していますか?
ID3 モデルの結果をプロットしたいと思います。WEKAにもRにもデフォルトのプロットモジュールがないようです。
これを行うためのコードは既に作成されていますか? (または、以下のツリー形式には、パーサーを簡単に見つけることができる標準的な名前がありますか?)
ここにいくつかの基本的なコードがあります:
結果は次のとおりです。
ツリー構造は非常に理解しやすいです。これを解析する方法について何か提案はありますか? (多分ここからの答えに似ていますか?)
ありがとう。
r - RWeka IBk (KNN) CV 評価出力の欠落
クラス ラベルがバイナリ変数である mpg01 と呼ばれるデータセット Auto があります。次のコードを使用して、モデルのトレーニングとクロス検証を行っています。
ただし、概要では次のことがわかります。
正しく分類されたインスタンスまたは正しく分類されていないインスタンスは出力されません。何が原因なのかなと。
すべての属性とクラス ラベルは num 型です。クラスラベル(mpg01)を因子型に変換していないからでしょうか。前もって感謝します。
r - M5 RWeka キャレット モデルの保存/読み込みが失敗する
保存した RWeka パッケージの M5 実装を Caret 経由でロードすると、エラーが発生します。
.jcall(o, "Ljava/lang/Class;", "getClass") のエラー:
RcallMethod: NULL オブジェクトのメソッドを呼び出そうとしています。
エラーを再現するには:
この投稿は、RWeka オブジェクトが Java オブジェクトへの参照であり、適切に保存/ロードするためにそのオブジェクトをシリアル化する必要があることを示しています。
ただし、これを Caret パッケージの実装に拡張するための適切なコマンドが見つかりません。
r - R および tm パッケージ: 1 つまたは 2 つの単語の辞書を使用して、用語とドキュメントのマトリックスを作成しますか?
目的:一部のキーワードとして複合語 (バイグラム) を含む辞書を使用して、用語とドキュメントのマトリックスを 作成したいと考えています。
Web 検索: テキスト マイニングと のtm
パッケージは初めてなR
ので、これを行う方法を理解するために Web にアクセスしました。以下は、私が見つけた関連リンクです。
背景: これらのうち、NGramTokenizer
のRWeka
パッケージでR
使用するソリューションを好みましたが、問題が発生しました。以下のサンプル コードでは、3 つのドキュメントを作成し、コーパスに配置します。Docs 1
and に2
はそれぞれ 2 つの単語が含まれ ていることに注意してください。Doc 3
は 1 つの単語のみを含みます。私の辞書のキーワードは、2 つのバイグラムと 1 つのユニグラムです。
問題:上記のリンクのNGramTokenizer
解決策では、 の unigram キーワードが正しくカウントされませんDoc 3
。
私は、他の2人のために、ギブDoc 3
する1
ための行を期待していました。私が誤解していることはありますか?jedi
0
r - 枝刈りルールに基づく分類木 (PART アルゴリズム)
マルチクラス分類のためにRで(パッケージRWeka経由で)PARTアルゴリズムを使用しています。ターゲット属性は、請求書が顧客によって支払われるタイム バケットです (7 ~ 15 日、15 ~ 30 日など)。モデルからのフィッティングと予測に次のコードを使用しています:
このモデルを使用することで、トレーニング データで約 82% の精度を得ています。しかし、テストデータの精度は約 59% です。モデルを過剰に適合させていることを理解しています。予測変数の数を減らそうとしましたが (上記のコードの予測変数は減らされた変数です)、あまり役に立ちません。変数の数を減らすと、テスト データの精度が約 61% に向上し、トレーニング データの精度が約 10% に低下します。 79%。
PART アルゴリズムは部分決定木に基づいているため、別のオプションとして木を剪定することができます。しかし、PARTアルゴリズムのためにツリーを剪定する方法を知りません。インターネット検索で、ルールベースのアルゴリズムのプルーニングに FOIL 基準を使用できることがわかりました。しかし、R または RWeka で FOIL 基準の実装を見つけることができません。
私の質問は、PARTアルゴリズムのツリーを剪定する方法、またはテストデータの精度を向上させるためのその他の提案も歓迎されるということです.
前もって感謝します!!
注 : 正しく分類されたインスタンスの数をインスタンスの総数で割った値として精度を計算します。
r - model.frame.default(formula = class ~ ., data = rtrain) の Rweka エラー: オブジェクトは行列ではありません
私は と を使用するRweka
のが初めてですR
。KNN
次のコードを書くようなデータのトレーニングに使用しているとき。
エラーログは次のとおりです。
また、 のクラスもテストしましたtrain data
。ここにあります:
r - rのRWekaパッケージのロジスティックモデルツリー(LMT)結果のプロットボックスの解釈は何ですか?
私は、5つの既知のグループを使用してユーザー分類に取り組んでいます(観察はグループにほぼ均等に分割されています)。私はこれらのユーザーに関する情報 (年齢、居住地域など) を持っており、各グループのユーザーを特定する特徴を見つけようとしています。
この目的のために、R の Rweka パッケージを使用します (機械学習アルゴリズムのコレクション: http://cran.r-project.org/web/packages/RWeka/RWeka.pdf )。私のグループを区別する特性を見つけるために、ロジスティック モデル ツリー (LMT) を使用します。この関数に関する情報はほとんどありません。
- プロットされた木の例をスケッチしてみます。分割は簡単に解釈できますが、各ターミナル ノードには次の情報が入ったボックスがあります。
LM_24: 48/96
(20742)
これは何を意味するのでしょうか?ノードが 5 つのグループのどのグループで終了するかを確認するにはどうすればよいですか?
- モデルで使用されている係数を取得するには、どの関数を使用しますか? 変数の影響を調べることができるように。
(これらのデータにツリーを構築するための他の方法を調べましたが、回帰ツリー パッケージと分類ツリー パッケージ (rpart、party など) の両方で、データ内のターミナル ノートが 1 つしか見つかりませんでしたが、LMT 関数では 6 つの分割ノードが見つかりました)
この機能に関する回答/ヘルプを提供していただければ幸いです。どうもありがとう!