python - numpy loadtxtは最初の行をスキップします

Question

numpy の loadtxt 関数を使用して CSV ファイルからデータをインポートしようとすると、小さな問題が発生します。これは、私が持っているデータファイルのタイプのサンプルです。

それを「datafile1.csv」と呼びます:

# Comment 1
# Comment 2
x,y,z 
1,2,3
4,5,6
7,8,9
...
...
# End of File Comment

この状況でうまくいくと思ったスクリプトは次のようになります。

import numpy as np
FH = np.loadtxt('datafile1.csv',comments='#',delimiter=',',skiprows=1)

しかし、私はエラーが発生しています:

ValueError: could not convert string to float: x

これは、kwarg 'skiprows' がヘッダーをスキップしているのではなく、コメントの最初の行をスキップしていることを示しています。単にskiprows=3であることを確認することもできますが、問題は非常に多数のファイルがあり、ファイルの先頭に同じ数のコメント行があるとは限らないことです。loadtxt を使用するときに、このような状況で実際のデータのみを取得していることを確認するにはどうすればよいですか?

PS - 私は bash ソリューションにもオープンです。

score 29 · Accepted Answer

ジェネレーター式を使用してコメント行を手動でスキップします。

import numpy as np

with open('datafile1.csv') as f:
    lines = (line for line in f if not line.startswith('#'))
    FH = np.loadtxt(lines, delimiter=',', skiprows=1)

score 2 · Accepted Answer

次のような独自のカスタムフィルター関数を作成します。

def skipper(fname):
    with open(fname) as fin:
        no_comments = (line for line in fin if not line.lstrip().startswith('#'))
        next(no_comments, None) # skip header
        for row in no_comments:
            yield row

a = np.loadtxt(skipper('your_file'), delimiter=',')

python - numpy loadtxtは最初の行をスキップします

3 に答える 3

Related

Reference