研究のためにクリーンアップする一連のタブ タイプのデータがあります。各データセットは、典型的なきちんとした列ごとの形式ではなく、個々の郡ごとにタブ形式になっています (以下に示すように)。
1CURRENT DATE: XXX AGE,SEX, RACE AND ETHNICITY OF PERSONS PAGE 1
BEGINNING DATE FOR DATA TOTALS: 01/83 COUNTY 001
ENDING DATE FOR DATA TOTALS: 12/83 RECORD COUNT 36
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White
Robbery F 1 2 2 2 3 3 3
M 3 3 2 2 4 3 3
Fraud F 1 2 2 2 3 3 2
M 2 3 2 2 4 3 3
Arson F 1 2 2 2 3 3 3
M 4 3 2 2 4 3 4
1CURRENT DATE: XXX AGE,SEX, RACE AND ETHNICITY OF PERSONS PAGE 4
BEGINNING DATE FOR DATA TOTALS: 01/83 COUNTY 002
ENDING DATE FOR DATA TOTALS: 12/83 RECORD COUNT 36
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White
Robbery F 1 2 2 2 3 3 3
M 2 3 2 2 4 4 3
Fraud F 1 2 2 2 3 3 2
M 2 3 2 2 4 6 3
Arson F 1 2 2 2 3 3 3
M 4 3 2 2 4 3 4
1CURRENT DATE: XXX AGE,SEX, RACE AND ETHNICITY OF PERSONS PAGE 7
BEGINNING DATE FOR DATA TOTALS: 01/83 COUNTY 003
ENDING DATE FOR DATA TOTALS: 12/83 RECORD COUNT 36
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White
Robbery F 1 2 2 2 3 3 3
M 3 3 2 2 4 3 3
Fraud F 1 2 1 4 3 3 2
M 2 3 2 2 4 3 3
Arson F 1 2 4 2 3 3 3
M 4 3 2 2 4 3 4
タブタイプの性質のため、これらのデータセットをさらに分析するために Excel または stata に直接インポートすることはできません。私が計画しているのは、各郡の ID (つまり、郡 003、郡 002 など) と特定の種類の犯罪をコピーして貼り付け、次のような新しい列のようなデータセットを作成することです。
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White County
Robbery F 1 2 2 2 3 2 3 001
Robbery F 1 2 2 2 2 3 3 002
Robbery F 1 2 2 2 3 3 3 003
この新しいデータセットからデータをさらにクリーンアップします。
オンラインで検索したところ、Python は実際にこの種のファイルの特定の部分の新しいドキュメントへのコピー アンド ペーストを実行できることがわかりました。しかし、私は Python を初めて使用します。私の経験は主に Stata と SPSS です。どのコードがこのタイプのコピー アンド ペースト ジョブを実行するのか正確にはわかりません。