これに簡単な答えがどこかにある場合は、事前にお詫び申し上げます。そのようなもののように思えますが、SO を検索したり、グーグルで検索したりしても、ヘルプ ファイルで見つけることができないようです。
現在、数GBのデータセットをいくつか扱っています。私がアクセスできるクラスタ ノードの 1 つのメモリに収まるには十分ですが、ロードにはかなりの時間がかかります。このデータを使用した多くのデバッグ/プログラミング アクティビティでは、ファイル全体をロードする必要はありません。コードをテストするためのデータセットを取得するには、最初の数千の観測のみをロードする必要があります。もちろん、ファイル全体を読み込んでサブセット化することもread.dta()
できますが、最初の N 行のみを読み込むように指示する方法があるかどうか疑問に思っていました。もちろん、これははるかに高速です。
.csv のような適切な形式を使用してread.csv()
から の nrows 引数を使用することもできますが、その場合、Stata データセットの因子ラベルが失われます (そして、データにフィードしている他の誰かのコードからかなりの数 GB のデータを再作成する必要があります)。このプロジェクト.したがって、.dta ファイルの直接的な解決策が推奨されます。