0

Pandas を使用して、Python で Web ログ テキスト ファイルをインポートしています。Python はヘッダーを読み取っていますが、テキスト "Fields:" をヘッダーとして使用し、最後に空白 (NaN) の別の列を追加しています。このテキストが列見出しとして使用されないようにするにはどうすればよいですか?

ここに私のコードがあります:

arr = pd.read_table("path", skiprows=3, delim_whitespace=True,      na_values=True)

ファイルの先頭は次のとおりです。

ソフトウェア: Microsoft インターネット インフォメーション サービス 7.5

バージョン: 1.0

日付: 2014-08-01 00:00:25

フィールド: 日時

2014-08-01 00:00:25...

その結果、「Fields」が列見出しとして使用され、列「time」に対して NaN 値でいっぱいの列が作成されます。

4

2 に答える 2

1

read_table2回呼び出すことができます。

# reads the forth line into 1x1 df being a string, 
# then splits it and skips the first field:
col_names = pd.read_table('path', skiprows=3, nrows=1, header=None).iloc[0,0].split()[1:]
# reads the actual data:
df = pd.read_table('path', sep=' ', skiprows=4, names=col_names)

列の名前 (例:datetime) が既にわかっている場合は、さらに簡単です。

df = pd.read_table('path', sep=' ', skiprows=4, names = ['date', 'time'])
于 2016-04-08T05:50:30.620 に答える
1

私はあなたが望むかもしれないskiprows = 4と思いますheader = None

于 2016-04-08T04:33:16.433 に答える