Rよりも「SPSSの読み取り/書き込みおよびデータ管理速度が大幅に優れている」と書いているとき、あなたが正確に何を指しているのかわかりません。あなたの質問自体は、データ管理におけるRの柔軟性を示しています! また、10 万行と 100 列のデータセットは、決して大きなものではありません。
しかし、あなたの質問に答えるために、おそらくあなたはこのようなものを探しています. GUIではなく「プログラムによる」ソリューションを提供しています。これは、プログラミング側に焦点が当てられているStack Overflowで質問しているためです。ここにあるサンプル データ ファイルを使用しています: http://www.ats.ucla.edu/stat/spss/examples/chp/p004.sav
そのファイルを SPSS 作業ディレクトリに保存し、SPSS シンタックス エディターを開いて、次のように入力します。
GET FILE='p004.sav'.
SELECT IF (lactatio <= 3).
SAVE OUTFILE= 'mynewdatafile.sav'
/KEEP currentm previous lactatio.
GET FILE='mynewdatafile.sav'.
ただし、おそらく、次のようなことを行う必要があります。
FILE HANDLE directoryPath /NAME='C:\path\to\working\directory\' .
FILE HANDLE myFile /NAME='directoryPath/p004.sav' .
GET FILE='myFile'.
SELECT IF (lactatio <= 3).
SAVE OUTFILE= 'directoryPath/mynewdatafile.sav'
/KEEP currentm previous lactatio.
FILE HANDLE myFile /NAME='directoryPath/mynewdatafile.sav'.
GET FILE='myFile'.
これで、列が 3 つしかなく、"lactatio" 列の値が 3 より大きい新しいファイルが作成されたはずです。
したがって、基本的な手順は次のとおりです。
- 操作するデータをロードします。
- 関心のあるすべてのケースのすべての列のサブセット。
- 関心のある変数のみを含む新しいファイルを保存します。
- 続行する前に、その新しいファイルをロードします。
R では、基本的な手順は次のとおりです。
- 操作するデータをロードします。
- 行と列のサブセットを使用してオブジェクトを作成します (方法は知っています)。
うーん....あなたのことはわかりませんが、どちらの方法が好きかはわかります;)
R で適切なツールを使用している場合、速度が本当に問題になる場合は、最初にデータセット全体を読み込まずに、関心のある特定のサブセットを直接読み取ることもできます。