問題タブ [ff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R での ffdf オブジェクトのサブセット化
私は R のff
パッケージを使用しffdf
ており、作業する必要のあるオブジェクト (約 1.5M x 80 の寸法) をいくつか持っています。ただし、効率的なスライス/ダイシング操作について頭を悩ませています。
たとえば、「YEAR」と「AGE」という名前の 2 つの整数列があり、YEAR が 2005 の場合に AGE のテーブルを作成したいとします。
1 つのアプローチは次のとおりです。
table()
操作は高速ですが、ビット ベクトルの構築は非常に遅くなります。これを改善するための推奨事項はありますか?
r - ffdfdply 関数が R をクラッシュさせ、非常に遅い
R で大きなデータ セット (1 GB または 2 GB 以上) のタスクを計算する方法を学び、ff
パッケージとffdfdply
関数を使用しようとしています。(使用方法については、このリンクを参照してくださいffdfdply
: R 言語: 「グループ化」または ff パッケージでの分割に関する問題)
私のデータには次の列があります:
"id" "birth_date" "diagnose" "date_diagnose"
「id」ごとにいくつかの行があり、診断があった最初の日付を抽出したいと考えています。
私はこれを適用します:
非常に奇妙ですが、このコマンド:ffdfdply(x = data.f, .... )
は RStudio (および R) をクラッシュさせます。同じコマンドで R がクラッシュする場合とそうでない場合があります。たとえば、ffdfdply
(最初に機能した) 行を再度トリガーすると、R がクラッシュします。
また、他の機能やデータなどを利用しても同様の効果があります。メモリの増加や log.txt への影響はありません。summaryBy "technique" を適用した場合と同じ動作....
したがって、誰かが同じ問題を抱えていて解決策を見つけた場合、それは非常に役立ちます. またffdfdply
、非常に遅くなる (SAS よりも遅い...) ため、この種のタスクを作成する別の戦略を考えています。
ffdfdply
たとえば、データセットがID順に並べられていることを考慮していますか? (そのため、同じ ID を取得するためにすべてのデータを調べる必要はありません...)。
したがって、この問題に対する他のアプローチを知っている人がいればddply
、「RAM メモリが少ない R の大きなデータセット」のすべてのユーザーにとって、それは本当に素晴らしいことです。
これは私のsessionInfo()
r - ffdf オブジェクトの NA を置き換える
一部の列に NA を持つ ffdf オブジェクトを使用しています。NA は、merge.ffdfを使用した左外部マージの結果です。NAを 0 に置き換えたいのですが、うまくいきません。ここに私が実行しているコードがあります:
私が間違っていることは何ですか?一般に、クラス ff および ffdf のメソッドの置換について詳しく知りたいと思います。トピックに関するいくつかの例を見つけることができる提案はありますか?
r - パッケージから行を削除
しばらく前から、ビッグデータを扱うために ff パッケージを使用しています。私が扱った R オブジェクトには、約 130.000.000 行と 14 列があります。これらの列のうち、Temperature と Precipitation の 2 つに欠損値「NA」があるため、作業を進めるにはこれらの行を削除する必要があります。私は通常のRオブジェクトのようにそれをやろうとしています:
しかし、私はエラーが発生し続けます:
ffdf オブジェクトの行を削除できた人はいますか? 助けていただければ幸いです。
r - ff パッケージ書き込みエラー
R を使用して 1909x139352 のデータセットを操作しようとしています。私のコンピューターには 2GB の RAM しかないため、従来の方法ではデータセットが大きすぎます (500MB)。ff
ということで、パッケージを利用することにしました。しかし、私はいくつかの問題を抱えています。関数read.table.ffdf
はデータの最初のチャンクを読み取ることができません。次のエラーでクラッシュします。
何が起こっているのか誰にもわかりませんか?
r - R の ff パッケージ: あるドライブから別のドライブにデータを移動し、ファイル名を変更する方法
私は驚くべき ff および ffbase パッケージを集中的に使用しています。いくつかの技術的な詳細が原因で、R セッションを使用して C: ドライブで作業する必要があります。それが終わったら、生成されたファイルを P: ドライブに移動します (Windows でカット/ペーストを使用し、ff を使用しません)。
問題は、ffdf オブジェクトをロードするときです。
エラーが発生します:
移動されたことを ffdf オブジェクトに誰も伝えていないため、これは問題ありませんが、次のことを試みています。
また
エラーが発生して、役に立ちません:
ファイルの新しい場所のパスを ffdf オブジェクトに「変更」する方法はありますか? ありがとうございました !!
r - ffload のリスト機能を使用して ffdf を選択的にロードする方法は?
list
の機能をffload
適切に使用して、の一部を選択的にロードするにはどうすればよいffdf
ですか?
ff データフレームの一部を選択的にロードすることは可能ですが、自分で機能させることはできないと何度も読みました。
私の問題は、一意の ID のリストを持つベクターとのマージを実行しようとしていますが、ffdf ファイルが大きすぎてコンピューターがこのマージを処理できないことです。
これまでのところffinfo
、 を構成するさまざまなパーツのリストを取得するために を使用しようとしてきましたffdf
。
たとえば、問題の ffdf の「ファイル パーツ」の次のリストを取得します。
ここでpaste(imp_tables_root_loc,table_name,sep="")
、ffdf テーブルとその場所を指定します
次に、次のように呼び出して ffload を試みます。
しかし、これにより次のエラーが発生します。
ffload(file = paste(imp_tables_root_loc, table_name, sep = "") のエラー: ffarchive にありません: " ffdf1590409e251b.ff",
r - RのColumnbind ffデータフレーム
私はffパッケージで作業しようとしています。このコンテキストでは、2 つの ff データフレームを cbind しようとしています。ffdf を ff ベクトルと結合する解決策を見つけましたが、どうすれば ffdf に結合できますか。ここで、ffdf と ff ベクトルを結合するための私のコード:
助けてくれてどうもありがとう
r - ffdfオブジェクトからデータフレームで計算を行う
大規模なデータセット (350 万行と 40 列) を扱っており、いくつかの値を消去する必要があるため、データに基づいてモデルを作成するときに必要な他のパラメーターを計算できるようになります。
問題は、これまで使用してきた for ループを適用するのに永遠に時間がかかることです。そのため、ff パッケージを使用してみようと思いました。データフレームはデータと呼ばれ、銀行の一連の顧客情報で構成されています。.csv ファイルとしてインポートされました。私がする必要があるのは、AverageStanding 変数が負の場合、すべての顧客 (Serial というラベルが付いている) を削除することです。
これは私が受け取っているエラーです:
これらのエラーを回避する方法についてのアイデアはありますか?