こんにちは私はパンダを使用して一連のファイルを読み取り、それらをデータフレームに連結しています。私のファイルには、最初に、無視したい可変長のゴミがたくさんあります。pd.read_csv()
skiprowsメソッドがあります。このケースを処理する関数を作成しましたが、機能させるにはファイルを2回開く必要があります。もっと良い方法はありますか?
HEADER = '#Start'
def header_index(file_name):
with open(file_name) as fp:
for ind, line in enumerate(fp):
if line.startswith(HEADER):
return ind
for row in directories:
path2file = '%s%s%s' % (path2data, row, suffix)
myDF = pd.read_csv(path2file, skiprows=header_index(path2file), header=0, delimiter='\t')
どんな助けでも大歓迎です。