問題タブ [ffbase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ffdf オブジェクトの分割
ライブラリを使用ff
しffbase
て大きな csv ファイルを管理しています (~40Go および 275e6 観測)。このファイルをその列の 1 つ (因子列) に従って分割/分割したいと思います。
通常のデータ フレームでは、次のようにします。
しかし、機能はff
ありffbase
ませんsplit
。それで、ffbase
ドキュメントを見て、次のように見つけffdfply
て使用しようとしました:
残念ながら、ログメッセージが表示されます:
分割サイズの計算 分割
位置の構築
分割 1/1 での作業、26 個の分割要素の RAM でのデータの抽出、
合計、0.00015 GB、
BATCHBYTES を使用して指定された最大指定データは 0.01999 GB
... 選択したデータに FUN を適用
エラー: 引数 " FUN" がありません。デフォルトはありません
私は試してみFUN = as.data.frame
ました(関数の結果はデータフレームでなければならないため)運がありません:そうすることでffa_partitionがffaのコピーになります...
ffdf を分割するにはどうすればよいですか?
r - R ffdfdply 追加エラー
「ITEM」の値を列と値(「ITEM2」)として使用して、データ(data.frame)をロングフォーマットからワイドフォーマットにキャストしたい(以下を参照):
したがって、パッケージ reshape2 の dcast-function を使用します。
これを行うと、すべて正常に動作します。
しかし、データ フレームに 7m のデータ レコードがあり、メモリの制限に苦労していました。したがって、ffdf で data.frame を変換し、パッケージ ffbase の ffdfdply-function を使用してフレームをキャストすることにしました。
すべての分割に同じ順序で同じ列があることを確認するために、事前に「ITEM」から値を抽出し、存在しない場合は列に N/A を追加し、すべての列をアルファベット順に並べます。
コード全体の下:
残念ながら、2 番目の分割の結果を最初の分割に (トレースを使用して) 追加すると、次のエラーが発生します。
追加せずに少ないレコードで 1 つの分割のみを計算すると、正常に機能します。
誰か助けてくれませんか?
ありがとうございました。
r - ffdf [R] の列に値を再割り当てする
大規模なデータセットで次の操作を行うのに問題があります。ffまたはffdfのいずれかでそれを行う組み込みの方法があるのだろうか。
例: substr を使用して ffdf オブジェクトの文字列を変更し、別の列として再割り当てします。
「種」列にアクセスできます
しかし、たとえば、文字 1 から 3 をサブストリング化したい場合、次のエラーが発生します。
ffdf オブジェクトの列を変更するためのガイドラインは何ですか?
編集
また、ffdfdply アプローチも試しました。かなり小さいデータの場合、非常に時間がかかるようです。
r - 条件付き文字列 ffdf データ
ブラジルの高校に在籍している人々をリストする ffbase パッケージを使用して、大きなデータセット (最大 600 万行) を R にインポートしました。原則として、Id(学籍番号)とUniversity(機関名)の2つの列があります。
この例では Group という名前の列を作成して、各大学をその教育グループに関連付けたいと思います。
PS: 私のデータセットには教育グループに関する情報はありませんが、どのグループが各大学に対応するかについて必要な情報はあります。このようにして、この詳細をデータに添付する必要があります。
PS2: University 列のクラスは ff_vector です。
あなたの貢献に感謝します。
r - ffbase-package の ffwhich で機能しない基本的な例
SelfControlledCaseSeries
パッケージを利用してff
ビッグデータを処理する OHDSI:s バージョンのパッケージを使用しようとしています。しかし、何かが機能でffwhich
機能していません。ffwhich
ドキュメントに記載されている次の例を実行します。
私にくれます
小さいサイズに設定batchbytes
して、別のコンピューターでスクリプトを実行し、ff ファイルの保存場所も変更してみましたが、エラーは残ります。
これを修正する方法についてのアイデアはありますか?