python - 最初の行に指定されたヘッダーを含む ascii ファイルを pandas データフレームに読み込む

Question

さまざまな列と各列のさまざまなヘッダー名を持つカタログの膨大なセットがあります。各ヘッダー名の説明は、行の ascii ファイルの先頭にコメントとして示されています。pandas.DataFrame最初から定義する必要なく、列の名前も設定できるので、それらを読み取る最良の方法は何ですか。以下は私のカタログの一例です。

#   1 MAG_AUTO            Kron-like elliptical aperture magnitude         [mag]
#   2 rh                  half light radius (analyse)                     [pixel]
#   3 MU_MAX              Peak surface brightness above background        [mag * arcsec**(-2)]
#   4 FWHM_IMAGE          FWHM assuming a gaussian core                   [pixel]
#   5 CLASS_STAR          S/G classifier output                          
18.7462 4.81509 20.1348 6.67273 0.0286538
18.2440 7.17988 20.6454 21.6235 0.0286293
18.3102 3.11273 19.0960 8.26081 0.0430532
21.1751 2.92533 21.9931 5.52080 0.0290418
19.3998 1.86182 19.3166 3.42346 0.986598
20.0801 3.52828 21.3484 6.76799 0.0303842
21.9427 2.08458 22.0577 5.59344 0.981466
20.7726 1.86017 20.8130 3.69570 0.996121
23.0836 2.23427 23.3689 4.49985 0.706207
23.2443 1.62021 23.1089 3.54191 0.973419
20.6343 3.99555 21.9426 6.94700 0.0286164
23.4012 2.00408 23.3412 4.35926 0.946349
23.8427 1.54819 23.8241 3.83407 0.897079
20.3344 2.69910 20.9401 4.38988 0.0355277
21.7506 2.43451 22.2115 4.62045 0.0786921

score 10 · Accepted Answer

これは Sextractor 形式のファイルです。astropy.io.ascii 読者はこの形式をネイティブに理解するので、これは簡単に読むことができます。

>>> from astropy.io import ascii
>>> dat = ascii.read('table.dat')
>>> dat
<Table masked=False length=3>
MAG_AUTO    rh       MU_MAX    FWHM_IMAGE CLASS_STAR
  mag            mag / arcsec2    pix               
float64  float64    float64     float64    float64  
-------- ------- ------------- ---------- ----------
 18.7462 4.81509       20.1348    6.67273  0.0286538
  18.244 7.17988       20.6454    21.6235  0.0286293
 18.3102 3.11273        19.096    8.26081  0.0430532
...

astropy ASCII リーダーを使用すると、ユニットのメタデータも保持するテーブルが得られることに注意してください。

これを pandas データフレームに変換したい場合は、DataFrame(dat.as_array()). バージョン 1.1 の astropy (および現在のマスター) にはメソッドがto_pandasありfrom_pandas、この変換をより堅牢にします ( http://astropy.readthedocs.org/en/latest/table/pandas.htmlを参照)。

score 2 · Accepted Answer

わかりました、すべてのヘッダー情報がまったく同じ方法でエンコードされていると仮定すると、これを行う方法は次のとおりです。

import re

import pandas

COMMENT_CHAR = '#'
columns = []
with open('test.dat', 'r') as td:
    for line in td:

        # find the commented lines
        if line[0] == COMMENT_CHAR:
            info = re.split(' +', line)
            columns.append(info[2])

        # when we seethe first line that doesn't start with 
        # COMMENT_CHAR, we pass the remaining lines of the 
        # file to pandas.read_table and break our loop
        else:
            _dfs = [
                pandas.DataFrame([line.split(' ')], columns=columns, dtype=float),
                pandas.read_table(td, sep='\s', header=None, names=columns)
            ]
            df = pandas.concat(_dfs, ignore_index=True)

最初の解析を少し分解するには、次のre.split(' +', line)ようにします。

# 1 MAG_AUTO Kron-like elliptical aperture magnitude [mag]

の中へ

['#', '1', 'MAG_AUTO', 'Kron-like', 'elliptical', 'aperture', 'magnitude', '[mag]']

したがって、列名を 3 番目の要素 (インデックス = 2) とします。

これにより、次のようなデータフレームが生成されます。

print(df.head())
   MAG_AUTO       rh   MU_MAX  FWHM_IMAGE  CLASS_STAR
0   18.7462  4.81509  20.1348     6.67273    0.0286538
1   18.2440  7.17988  20.6454    21.62350    0.028629
2   18.3102  3.11273  19.0960     8.26081    0.043053
3   21.1751  2.92533  21.9931     5.52080    0.029042
4   19.3998  1.86182  19.3166     3.42346    0.986598

そしてdf.info()、私たちに与えます：

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15 entries, 0 to 14
Data columns (total 5 columns):
MAG_AUTO      15 non-null float64
rh            15 non-null float64
MU_MAX        15 non-null float64
FWHM_IMAGE    15 non-null float64
CLASS_STAR    15 non-null float64
dtypes: float64(5)
memory usage: 720.0 bytes

python - 最初の行に指定されたヘッダーを含む ascii ファイルを pandas データフレームに読み込む

2 に答える 2

Related

Reference