次の構造の単純なtsv
ファイルがあります。
0 - headerline
1 - empty line
2 - PIG schema
3 - empty line
4 - 1-st line of DATA
5 - 2-nd line of DATA
おそらく使用して読みたいのreadr::read_tsv
ですが、ここに問題があります。
ご覧のとおり、最初の行にはヘッダーが含まれています。次に、読み取りたくない3つの行があり(Apache PIGからの非常に奇妙なデータが含まれています)、4行目でデータが始まります。ではPandas
、次のようなことをします
df = pd.read_csv('/localpath/data.tsv', sep='\t', skiprows=[1,2,3])
これにより、ヘッダーを読み取り、行1、2、3をスキップできます。
に同様のオプションはありませんreadr::read_tsv
。あれは :
df = read_tsv('/localpath/data.tsv', col_names = TRUE, skip = 4)
ヘッダーを解析しません...
何か案は?