問題タブ [r-factor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - データフレームの行を連結する
文字と数字を含むデータフレームを取得し、各行のすべての要素を1つの文字列に連結して、ベクトルに1つの要素として格納したいと思います。例として、文字と数字のデータフレームを作成し、貼り付け関数を使用して最初の行を連結し、値「A1」を返すことを望みます。
したがって、pasteは、行の各要素を、「対応するレベルのインデックス」に対応する整数に、それが因子であるかのように変換し、長さ2のベクトルを保持します。(文字に強制された因子はこのように動作することを私は知っています/信じていますが、Rはdf [1、]を因子としてまったく保存していないため(is.factor()でテスト済み)、それを確認できません実際にはレベルのインデックスです)
したがって、それがベクトルでない場合、それが奇妙に動作していることは理にかなっていますが、私はそれをベクトルに強制することはできません
使用as.character
することは私の試みに役立たなかったようです
誰かがこの振る舞いを説明できますか?
r - Rの列ごとの各因子の数を見つける
Rの列ごとの各因子の数を見つけることができるコードを作成しようとしていますが、各列で因子レベルを同じにするという制限があります。これは些細なことだと思いましたが、apply with factor を使用した場合と apply with table を使用した場合に、R が期待する値をまったく返さない 2 つの場所に遭遇しています。
次のサンプル データを検討してください。
私の最初のステップは、因子水準が同じになるように各列を再水準化することでした。最初に私は試しました:
そのため、代わりにループを使用してブルートフォースしました...
次に、適用に関する別の問題に遭遇しました。これで因子水準が設定されたと思いました。列内の特定の因子が欠落している場合、テーブル関数はその因子水準に対してカウント 0 を返す必要があります。ただし、適用を使用すると、カウントがゼロの因子レベルがドロップアウトされたように見えました!
これら2つのケースで何が起こっているのか誰か説明してくれませんか? 私は何を誤解していますか?
r - drop = TRUE は、ベクトルではドロップしますが、data.frame ではファクター レベルをドロップしません。
data.frame フィルタリングには興味深いオプションがありますdrop = TRUE
。次の抜粋を参照してくださいhelp('[.data.frame')
。
使用法
クラス「data.frame」の S3 メソッド
しかし、data.frame で試してみると、うまくいきません。
私は次のような他の方法があることを知っています
しかし、ドキュメントではこれを行うためのはるかにエレガントな方法が約束されているのに、なぜそれが機能しないのでしょうか? バグですか?これがどのように機能するのか理解できないので...
編集:ここでわかるdrop = TRUE
ように、ベクトルの因子レベルを削除することで混乱しました。因子レベルを下げて下げないのはあまり直感的ではありません!![i, drop = TRUE]
[i, j, drop = TRUE]
r - ダミー変数を順序付けされた係数に再コーディングする
ロジスティック回帰のコーディングファクターについてサポートが必要です。
私が持っているのは、所得階層を表す6つのダミー変数です。ロジスティック回帰で使用するために、これらを単一の順序付き因子に変換したいと思います。
私のデータフレームは次のようになります。
私がそれをどのように見せたいか:
これは一般的な(そして単純な)操作である必要がありますが、私の検索では、この再コーディングを実行する方法についての簡潔な答えは見つかりませんでした。どんな助けでも大歓迎です。
r - Rのggplotの要因の1つを無視する
ggplot を使用して、変数と属性をプロットします。次のコードを使用して、ggplot と factor を使用しています。
コードの結果:
「外れ値」のみを提示し、プロットから「正常」因子を省略したいと思います。
サンプルデータ:
r - qplot を使用してデータのサブセットを 1 つだけ描画する
d
次のような名前のリストがあります。
V1
0 ~ 50 の整数セット
V2
1500 ~ 1800 の実数セット
V3
1 ~ 50 の整数セット
合計で、リストには 5100 個のオブジェクトが含まれています
V2
ここで、のヒストグラムをプロットしたいと思います。V1
= 特定の数値 (0、1、10 など)
私はさまざまな方法を試しました:
私は本当にこれに夢中になります。の特性を確認しましたd$V1
が、異常はありませんでした。誰でも私を助けることができますか?
r - データ フレーム列として使用するためにテーブル結果から因子ラベルを抽出する
生の行入力形式 UID=character、Win/Lose=Boolean でクリックストリーム ログファイルの要約を実行しています。作成する出力サマリーは、行 UID、sumWin、sumLose の形式です。必要なものの一部を取得するためにテーブルを使用しましたが、要約 df で使用するためにテーブルの結果から因子ラベルを抽出するための正しい構文を理解するのに苦労しています。以下の例は、小さなテスト ケースを構築し、行き詰まった場所を示しています。表の結果から因子ラベルを取得できません。(もちろん、全体を処理するためのもっと良い方法があると思います - それは明らかに非常に便利です!)
ここのエディターでの書式設定にまだ問題があります-明らかに、それは次に尋ねる必要がある質問です...!
r - 現在の要因に基づいて新しい要因を作成するにはどうすればよいですか?
でR
、私がやろうとしているのは、値を別の要素または文字列に「グループ化」して要素を作成することです。
私が欲しいのは、 &areと&areのfactor2
ようなものを作成することです。私はループを試しましたが、それを機能させることはできませんが、これを行うにはエレガントな方法が必要だと信じています。A
B
E
C
D
F
R
r - 部分集合の場合、因子を含むRの大きなデータフレームは縮小しません
いくつかの因子変数を持つ大きなデータフレーム(100k行x 50列)があります。小さなサブセット(100行など)でプロトタイピングを実行したいと思います。問題は私がタイプするときです:
サイズは(を使用して)縮小しdim()
ますが、元のデータフレームからのすべての要素を保存しているように見えます(ここlsos()
にあるを使用してメモリサイズを測定しています)。
これを回避する方法はありますか?これまでのところ、私が見つけた唯一の方法は、因子変数を文字列に変換してからサブセット化し、次に因子に再度変換することです。これを行うにはもっと良い方法が必要だと思います。
助言がありますか?
r - Rで2レベルの因子をバイナリ値0/1に変換する
gender
バイナリカテゴリ値「女性」/「男性」を持つ という変数があります。回帰分析で使用できるように、型を整数 0/1 に変更したいと考えています。つまり、「女性」と「男性」の値を 1 と 0 にマッピングしたいのです。
要素を照会したときに int 値 1 を取得するように、性別変数の型を変換したいと思います。つまり、