問題タブ [dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - データ フレームを行ごとに分割し、ブロックを処理する方法は?
いくつかの列を持つデータ フレームがあり、そのうちの 1 つは「サイト」と呼ばれる要素です。データ フレームを「サイト」という一意の値を持つ行のブロックに分割し、各ブロックを関数で処理するにはどうすればよいですか? データは次のようになります。
各サイトのyear
vsのプロットを作成したいと思います。peak
r - 名前に基づいて変数を選択する (単純な正規表現)
何をすべきかを暗示する変数名を組み込みたいと思います。データフレームの「調査」を想像します。
ここで、 liketを含むすべての変数で特定のことをしたいと思います、 bernなどを含む変数で他のことをしたいと思います。
これはRでどのように行うことができますか?
r - グループごとに、データフレーム内のすべての変数の平均を要約します (ddply? split?)
1 週間前、私はこれを手動で行っていたでしょう: グループごとにデータフレームを新しいデータフレームにサブセット化します。各データフレームについて、各変数の平均を計算してから、rbind を実行します。非常に不格好...
split
とについて学んだ今plyr
、これらのツールを使用するより簡単な方法があるに違いないと思います。私が間違っていることを証明しないでください。
私は両方をいじっていますddply
が、私が望むものを作り出すことができません - つまり、各グループに対してこのようなテーブル
たぶんd_ply
、いくつかのodfweave
出力はうまくいくでしょう。入力は非常に高く評価されています。
ps data.frame が rnorm を data.frame の要素に変換することに気付きましたか? これを回避するにはどうすればよいですか - I(rnorm(100) は機能しないため、上記のように数値に変換する必要があります
r - データフレームをループして複数のフィールドを参照しようとしています
Address、City、State、Zip エンティティを含むデータフレームがあります。そこから、Yahoo API を使用して各住所をジオコーディングしようとしています。
これは、O'Reilly の Data Mashups using R Tutorial のコードに基づいています。元の例では、番地のベクトルを取得し、ハードコーディングされた都市を使用しています。複数の都市をサポートする動的な例を作成しようとしています。
コードの短縮版は次のとおりです。
myStreet$City と myStreet$Address を参照しようとすると、エラーが発生します
データ フレーム myStreets をループする以外に、行ごとに 1 回だけ Yahoo API を呼び出し、メンバーごとに経度/緯度の両方を保存する方法がわかりません。
r - Rでのデータフレームの再形成
大きなデータフレームを再形成する際に問題が発生しています。そして、私は過去に再形成の問題を避けることができたのは比較的幸運でした。
現在のデータフレームは次のようになります。
そして、私はしたい:
reshape パッケージを調べましたが、処理因子を個々の列名に変換する方法がわかりません。
ありがとう!
編集:ローカルマシン(4GBデュアルコアiMac 3.06Ghz)でこれを実行しようとしましたが、次のように失敗し続けます:
機会があれば、これをより大きなマシンの 1 つで実行してみます。
r - 識別されていない列を無視しながらデータフレームの列を並べ替える
これを行うにはもっと良い方法が必要だと思います。
データフレームの列を並べ替えようとしています。ordered.colnames
新しい順序を表すリスト がありますが、 に存在しない列がありますdataset
。エラー " undefined columns selected
" を回避するために、関連するスライスをtry()
関数でラップしました。
次の方法でうまくいきますが、これを行うより良い方法はありますか?
r - RでData.framesを操作する(SASコードを使用して必要なものを説明する)r
最近は主に SAS で作業していますが、RI の知識を失いたくないので、自分が行った基本的なことを再現したいと考えています。私の SAS コードが完璧でない場合は、ご容赦ください。私は自宅に SAS を持っていないので、記憶からこれを行っています。
SASには、おおよそ次の例のようなデータセットがあります(.はSASのNAに相当します)
上記のデータセットが work.foo の場合、次のようなことができます。
そして、私は次のようなものを得るでしょう
次に、C で並べ替えを実行し、C を使用してさまざまな操作を実行して、4 つのサブグループを作成できます。たとえば、各グループの平均を取得できます
そして、work.means と呼ばれるグループごとに変数のデータを取得します。次のようなものです。
も取れると思います。行、しかし私は私の目的のためにそれを気にしません.
今Rで。適切に読み込まれた同じデータセットがありますが、最後に変数を追加する方法(CCなど)やサブグループで操作を行う方法(procのby ccコマンドなど)がわかりません意味)。また、変数の名前は順不同ではなく、変数が表すものに従っていることに注意してください。
誰かが上記の方法を教えてくれれば、それを私がする必要があることに一般化できると思います。
r - Rを使用してデータフレームの列の上位n%のレコードを見つける方法
約 20 年間にわたる 1 日 1 回のオーストラリア ドルと米ドルの為替レートを示すデータセットがあります。データ フレームにデータがあり、最初の列は日付、2 番目の列は為替レートです。データのサンプルを次に示します。
これらのレコードの上位 n% を表示するにはどうすればよいですか? たとえば、為替レートがデータセット内のすべての為替レートの上位 5% に入る日とその日の為替レートを見たいとしますか?
r - 見えない文字列値を持つ新しいレコードをデータフレームに追加するときの見えない因子レベルにより、警告が発生し、結果は NA になります
2001 年から 2007 年までの請求データを含むデータフレーム (14.5K 行 x 15 列) があります。
2008 年の新しいデータを次のように追加します。alltime <- rbind(alltime,all2008)
残念ながら、それは警告を生成します:
私の推測では、以前のデータフレームに名前がなかった新しい患者が何人かいるため、それらにどのレベルを与えるべきかわかりません。同様に、「紹介医」の列に新しい未公開の名前が表示されます。
解決策は何ですか?
list - リストのリスト内のrbindデータフレーム
次のようなリストのリストがありますx[[state]][[year]]
。この各要素はデータフレームであり、それらに個別にアクセスすることは問題ではありません。
ただし、複数のリストにまたがるデータフレームを作成したいと思います。具体的には、年数と同じ数のデータフレームを出力したいと考えています。つまり、各年のすべての状態データフレームを出力します。つまり、すべての州のデータを毎年、別々のデータフレームに結合したいと思います。
単一のリストを。を使用してデータフレームに結合できることを知っていdo.call("rbind",list)
ます。しかし、リストのリスト全体でこれを行う方法がわかりません。