“fselector”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

4303 参照

r - エラー: protect(): 機能抽出中の保護スタックオーバーフロー

4755 行と 27199 列のデータフレームがあります。これは実際には文書用語マトリックスであり、「FSelector」パッケージを使用して機能選択を実行しようとしています。以下にコードの一部を示します。

これを行うたびに、エラーが発生します

24GB の RAM があり、データフレームのサイズは約 500Mb です。それで、何が問題なのか、どうすれば修正できるのかわかりませんか？

r feature-selection fselector large-data

2015-08-24T16:39:32.413

0 投票する

3 に答える

601 参照

r - RにおけるOneRアルゴリズムの手順

FSelecter パッケージの OneR アルゴリズムを使用して、エラー率が最も低い属性を見つけました。私のクラスの属性は「はい」と「いいえ」です。属性の私の特徴もイエスとノーです。

OneR アルゴリズムの結果は次のとおりです。

ただし、同じデータフレームで相関関数を使用すると、最良の属性は属性よりもエラー率が低くなり、oneR 関数で得られます。

OneR アルゴリズムが CO4 属性を (エラー率に基づいて) 最良の属性として表示しない理由を教えてください。

OneR アルゴリズムはどの基準を使用しますか?

--- 私の質問をよりよく理解するための追加 ---

完全なデータは大きすぎて表示できません。同じ効果を持つ新しいデータプールを構築しました

遅延 - OR1 - CO4 ..

1 ----------1--------1--

0 -------0--------0--

0 ----------0--------1--

1 ----------0--------1--

0 -------0--------0--

1 ----------0--------1--

0 -------0--------0--

1 ----------0--------1--

単一の属性のエラー率を表示するためのコード:

print(table(datapool_stackoverflow$DELAYED, datapool_stackoverflow$OR1))

OneR 関数のコード:

ライブラリ(FSelector)

oneR_stackoverflow <- oneR(DELAYED~., datapool_stackoverflow)

subset_stackoverflow <- cutoff.k(oneR_stackoverflow, 2)

印刷 (subset_stackoverflow)

相関のコード:

cor(as.numeric(datapool_stackoverflow$DELAYED), as.numeric(datapool_stackoverflow$OR1))

この場合、結果は次のようになります。

エラー率: OR1 マトリックス: ------ 0 (属性特性) -- 1 (属性特性)

0(クラス):---------------------4----------------------- --0

1(クラス: ----------------------3------------------------ -1

マヌエルが計算したエラー率: 3(0 + 3)

エラー率: CO4 マトリックス: ------ 0 (属性特性) -- 1 (属性特性)

0(クラス):-------------------------------------3--------------------- --1

1(クラス: -----------------------0---------------------- -4

エラー率: 1(1 + 0)

相関: 属性 OR1: 0.377 属性 CO4: 0.77

OneR: 「OR1」、「CO4」

なぜ、OneR 関数は分類するのに最適な属性として OR1 属性を提供するのですか?

r fselector

2015-09-20T09:34:48.587

0 投票する

1 に答える

3380 参照

r - R の information.gain での数式の使用

FSelector information.gain 関数の関数定義では、

information.gain(式、データ)

式の目的は何ですか？関数を使用して、分類タスクの特徴選択を実行しようとしています。私がオンラインで見たいくつかの例では、数式がクラスラベルとデータセット内のフィーチャとの間の何らかの関係を定義しているように見えます。ただし、この場合、分類タスクを実行しているため、特徴とラベルの間の正確な線形関係がわからないので、式はどうなるでしょうか?

r machine-learning statistics fselector

2015-10-20T16:13:10.920

0 投票する

1 に答える

17827 参照

アイリスデータセットを使用する、この CRAN ドキュメント ( https://cran.r-project.org/web/packages/FSelector/FSelector.pdf ) の 4 ページから最適な最初の検索の正確なコードを使用しています。虹彩データセットでは問題なく動作しますが、自分の ndata では動作しません。私のデータには 37 の予測変数 (数値とカテゴリの両方) があり、38 番目の列はクラス予測です。

エラーが発生します：

私はこの行から来ていると思います：

デバッグとトレースバックを試しましたが、このエラーが発生する理由がわかりません (前述のように、虹彩データでは再現できません)。

ここに私のデータの一部を示しますので、私が取り組んでいるものを見ることができます:

r prediction rpart fselector

2015-11-17T21:57:22.637

0 投票する

1 に答える

393 参照

java - Mac OS X El Capitan の R で FSelector パッケージを使用できない

現在、OS X El Capitan バージョン 10.11.3 を使用しています。

R で使用しようとすると、次のようlibrary(FSelector)なエラーが表示されます。

library(Rweka)また、とを試したときにも同じことが起こりましたlibrary(Rwekajars)。

なぜこれが起こり、どのように解決するのですか？

java r macos rweka fselector

2016-04-14T15:27:44.547

0 投票する

1 に答える

782 参照

r - FSelector パッケージですべての重みを適切に計算する方法は?

FSelector パッケージを使用して、R でデータセットの重みを計算しようとしています。データはこの場所から取得されます。

すべての重みを計算することはできません。gain.ratio関数を使用すると、Age重みは NaN になります。chi.squared代わりに関数を使用すると、Ageとの両方A/G Ratioがゼロになります。から最初の 200 要素を取得しdataて重みを計算すると、そのうちの 5 つだけが正確に計算され、その他はゼロまたは NaN です。

データから間違った要素を削除しようとしましdata <- na.omit(data)たが、結果は変わりませんでした。

重みを正しく計算するにはどうすればよいですか?

以下はウェイト印刷の例です。

r fselector

2016-05-31T22:40:58.567

0 投票する

1 に答える

534 参照

r - RでSparseMatrixマトリックスで特徴選択を行う方法

20,000 を超える機能、300 万を超えるオブジェクト、および 3,000 を超えるクラスでテキスト分類の問題が発生しています。データは非常にまばらです。私は R でプログラムを書きました。sparseMatrix オブジェクトのデータマトリックス。このデータの特徴を選択するにはどうすればよいですか? パッケージ FSelector を見つけましたが、sparseMatrix では動作せず、data.frame のみで動作し、メモリの制限によりデータを変換できません。

r sparse-matrix feature-selection fselector

2016-06-22T10:50:43.187

0 投票する

1 に答える

1968 参照

r - カイ二乗検定を使用したドキュメント機能マトリックスでの機能選択

自然言語処理を利用したテキストマイニングを行っています。パッケージを使用quantedaしてドキュメント機能マトリックス (dfm) を生成しました。ここで、カイ 2 乗検定を使用して特徴選択を行いたいと思います。すでに多くの人がこの質問をしていたことを知っています。ただし、それに関連するコードが見つかりませんでした。(答えは、次のような簡単な概念を示しただけです: https://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-feature-selection- in-r )

chi.squaredパッケージで使用できることを知りましたが、この関数を dfm クラスオブジェクト (以下)FSelectorに適用する方法がわかりません。trainingtfidf（マニュアルに示されています。予測変数に適用されます）

誰かヒントをくれませんか？それは有り難いです！

コード例:

r text-mining feature-selection quanteda fselector

2016-07-23T06:19:14.533

0 投票する

1 に答える

62 参照

r - Fselector パッケージの入力としての疎行列の使用について

私は information.gain()、chi.squared() および gain を使用しています。特徴選択のために Fselector パッケージによって提供される Ratio() 関数。

200161 (行)、323 (列) のデータセットの次元のマトリックスを使用しているため、これらの関数はすべてデータフレームを入力として受け入れています。

8 GB RAM を搭載した xeon プリオセッサーがあり、メモリ制限を最大に拡張した後、コマンドを使用してアサートします

結果は 8026 になりますが、これも十分ではありません

メモリ効率のために、データフレームをスパース行列に変換しました

ここで問題は、疎行列を関数 information.gain()、chi.squared()、gain.ratio() への入力として使用できるかどうかです。

これに関して誰か助けてください、

前もって感謝します

r feature-extraction fselector

2016-09-29T10:03:12.487

問題タブ [fselector]

r - エラー: protect(): 機能抽出中の保護スタックオーバーフロー

r - RにおけるOneRアルゴリズムの手順

r - R の information.gain での数式の使用

r - 「rpart」オブジェクトエラーの無効な予測

java - Mac OS X El Capitan の R で FSelector パッケージを使用できない

r - FSelector パッケージですべての重みを適切に計算する方法は?

r - RでSparseMatrixマトリックスで特徴選択を行う方法

r - カイ二乗検定を使用したドキュメント機能マトリックスでの機能選択

r - Fselector パッケージの入力としての疎行列の使用について

問題タブ [fselector]

Reference