問題タブ [ffbase]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
218 参照

r - ffdf オブジェクトの分割

ライブラリを使用ffffbaseて大きな csv ファイルを管理しています (~40Go および 275e6 観測)。このファイルをその列の 1 つ (因子列) に従って分割/分割したいと思います。

通常のデータ フレームでは、次のようにします。

しかし、機能はffありffbaseませんsplit。それで、ffbaseドキュメントを見て、次のように見つけffdfplyて使用しようとしました:

残念ながら、ログメッセージが表示されます:

分割サイズの計算 分割
位置の構築
分割 1/1 での作業、26 個の分割要素の RAM でのデータの抽出、
合計、0.00015 GB、
BATCHBYTES を使用して指定された最大指定データは 0.01999 GB
... 選択したデータに FUN を適用
エラー: 引数 " FUN" がありません。デフォルトはありません

私は試してみFUN = as.data.frameました(関数の結果はデー​​タフレームでなければならないため)運がありません:そうすることでffa_partitionがffaのコピーになります...

ffdf を分割するにはどうすればよいですか?

0 投票する
0 に答える
103 参照

r - R ffdfdply 追加エラー

「ITEM」の値を列と値(「ITEM2」)として使用して、データ(data.frame)をロングフォーマットからワイドフォーマットにキャストしたい(以下を参照):

ロングフォーマット

ワイドフォーマット

したがって、パッケージ reshape2 の dcast-function を使用します。

これを行うと、すべて正常に動作します。

しかし、データ フレームに 7m のデータ レコードがあり、メモリの制限に苦労していました。したがって、ffdf で data.frame を変換し、パッケージ ffbase の ffdfdply-function を使用してフレームをキャストすることにしました。

すべての分割に同じ順序で同じ列があることを確認するために、事前に「ITEM」から値を抽出し、存在しない場合は列に N/A を追加し、すべての列をアルファベット順に並べます。

コード全体の下:

残念ながら、2 番目の分割の結果を最初の分割に (トレースを使用して) 追加すると、次のエラーが発生します。

追加せずに少ないレコードで 1 つの分割のみを計算すると、正常に機能します。

誰か助けてくれませんか?

ありがとうございました。

0 投票する
1 に答える
834 参照

r - ffdf [R] の列に値を再割り当てする

大規模なデータセットで次の操作を行うのに問題があります。ffまたはffdfのいずれかでそれを行う組み込みの方法があるのだろうか。

例: substr を使用して ffdf オブジェクトの文字列を変更し、別の列として再割り当てします。

「種」列にアクセスできます

しかし、たとえば、文字 1 から 3 をサブストリング化したい場合、次のエラーが発生します。

ffdf オブジェクトの列を変更するためのガイドラインは何ですか?

編集

また、ffdfdply アプローチも試しました。かなり小さいデータの場合、非常に時間がかかるようです。

0 投票する
1 に答える
54 参照

r - 条件付き文字列 ffdf データ

ブラジルの高校に在籍している人々をリストする ffbase パッケージを使用して、大きなデータセット (最大 600 万行) を R にインポートしました。原則として、Id(学籍番号)とUniversity(機関名)の2つの列があります。

この例では Group という名前の列を作成して、各大学をその教育グループに関連付けたいと思います。

PS: 私のデータセットには教育グループに関する情報はありませんが、どのグループが各大学に対応するかについて必要な情報はあります。このようにして、この詳細をデータに添付する必要があります。

PS2: University 列のクラスは ff_vector です。

あなたの貢献に感謝します。

0 投票する
1 に答える
112 参照

r - ffbase-package の ffwhich で機能しない基本的な例

SelfControlledCaseSeriesパッケージを利用してffビッグデータを処理する OHDSI:s バージョンのパッケージを使用しようとしています。しかし、何かが機能でffwhich機能していません。ffwhichドキュメントに記載されている次の例を実行します。

私にくれます

小さいサイズに設定batchbytesして、別のコンピューターでスクリプトを実行し、ff ファイルの保存場所も変更してみましたが、エラーは残ります。

これを修正する方法についてのアイデアはありますか?