python - HDF5 min_itemsize エラー: ValueError: [y] 列に長さ [##] の文字列を格納しようとしていますが、この列には [##] の制限があります!

Question

使用後に次のエラーが表示されますpandas.HDFStore().append()

ValueError: Trying to store a string with len [150] in [values_block_0] column but  this column has a limit of [127]!

Consider using min_itemsize to preset the sizes on these columns

pandas DataFrame を作成し、次のように HDF5 ファイルに追加しています。

import pandas as pd

store = pd.HDFStore("test1.h5", mode='w')

hdf_key = "one_key"

columns = ["col1", "col2", ... ]

df = pd.Dataframe(...)
df.col1 = df.col1.astype(str)
df.col2 = df.col2astype(int)
df.col3 = df.col3astype(str)
.... 
store.append(hdf_key, df, data_column=columns, index=False)

上記のエラーが表示されます。

その後、次のコードを実行します。

store.get_storer(hdf_key).table.description

出力する

{
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": StringCol(itemsize=127, shape=(5,), dflt=b'', pos=1),
  "values_block_1": Int64Col(shape=(5,), dflt=0, pos=2),
  "col1": StringCol(itemsize=20, shape=(), dflt=b'', pos=3),
  "col2": StringCol(itemsize=39, shape=(), dflt=b'', pos=4)}

values_block_0ととは何values_block_1ですか?

そこで、この StackOverflow Pandas pytable: how to specify min_itemsize of the elements of a MultiIndex に従って、試してみました

store.append(hdf_key, df, data_column=columns, index=False,  min_itemsize={"values_block_0":250})

ただし、これは機能しません---今、次のエラーが発生します。

ValueError: Trying to store a string with len [250] in [values_block_0] column but  this column has a limit of [127]!

Consider using min_itemsize to preset the sizes on these columns

私は何を間違っていますか？

編集:このコードはエラーValueError: min_itemsize has the key [values_block_0] which is not an axis or data_columnを生成しますfilename.py

import pandas as pd
store = pd.HDFStore("test1.h5", mode='w')
hdf_key = "one_key"

my_columns = ["col1", "col2", ... ]

df = pd.Dataframe(...)
df.col1 = df.col1.astype(str)
df.col2 = df.col2astype(int)
df.col3 = df.col3astype(str)
.... 
store.append(hdf_key, df, data_column=my_columns, index=False, min_itemsize={"values_block_0":350})

完全なエラーは次のとおりです。

(python-3) -bash:1008 $ python filename.py
Traceback (most recent call last):
  File "filename.py", line 50, in <module>
    store.append(hdf_key, dicts_into_df,  data_column=my_columns, index=False, min_itemsize={'values_block_0':350})
  File "/path/lib/python-3/lib/python3.5/site-packages/pandas/io/pytables.py", line 970, in append
    **kwargs)
  File "/path/lib/python-3/lib/python3.5/site-packages/pandas/io/pytables.py", line 1315, in _write_to_group
    s.write(obj=value, append=append, complib=complib, **kwargs)
  File "/path/lib/python-3/lib/python3.5/site-packages/pandas/io/pytables.py", line 4263, in write
    obj=obj, data_columns=data_columns, **kwargs)
  File "/path/lib/python-3/lib/python3.5/site-packages/pandas/io/pytables.py", line 3853, in write
    **kwargs)
  File "/path/lib/python-3/lib/python3.5/site-packages/pandas/io/pytables.py", line 3535, in create_axes
    self.validate_min_itemsize(min_itemsize)
  File "/path/lib/python-3/lib/python3.5/site-packages/pandas/io/pytables.py", line 3174, in validate_min_itemsize
    "data_column" % k)
ValueError: min_itemsize has the key [values_block_0] which is not an axis or data_column

score 4 · Accepted Answer

アップデート：

パラメータのスペルが間違っていdata_columnsます: data_column- である必要がありますdata_columns。その結果、HDF ストアにインデックス付きの列がなく、HDF ストアが追加されましたvalues_block_X。

In [70]: store = pd.HDFStore(r'D:\temp\.data\my_test.h5')

スペルミスのあるパラメータは無視されます:

In [71]: store.append('no_idx_wrong_dc', df, data_column=df.columns, index=False)

In [72]: store.get_storer('no_idx_wrong_dc').table
Out[72]:
/no_idx_wrong_dc/table (Table(10,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": Float64Col(shape=(1,), dflt=0.0, pos=1),
  "values_block_1": Int64Col(shape=(1,), dflt=0, pos=2),
  "values_block_2": StringCol(itemsize=30, shape=(1,), dflt=b'', pos=3)}
  byteorder := 'little'
  chunkshape := (1213,)

以下と同じです。

In [73]: store.append('no_idx_no_dc', df, index=False)

In [74]: store.get_storer('no_idx_no_dc').table
Out[74]:
/no_idx_no_dc/table (Table(10,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": Float64Col(shape=(1,), dflt=0.0, pos=1),
  "values_block_1": Int64Col(shape=(1,), dflt=0, pos=2),
  "values_block_2": StringCol(itemsize=30, shape=(1,), dflt=b'', pos=3)}
  byteorder := 'little'
  chunkshape := (1213,)

正しく綴りましょう：

In [75]: store.append('no_idx_dc', df, data_columns=df.columns, index=False)

In [76]: store.get_storer('no_idx_dc').table
Out[76]:
/no_idx_dc/table (Table(10,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "value": Float64Col(shape=(), dflt=0.0, pos=1),
  "count": Int64Col(shape=(), dflt=0, pos=2),
  "s": StringCol(itemsize=30, shape=(), dflt=b'', pos=3)}
  byteorder := 'little'
  chunkshape := (1213,)

古い答え:

私の知る限り、最初の追加でのみパラメーターを効果的に設定できます。min_itemsize

デモ：

In [33]: df
Out[33]:
   num                 s
0   11  aaaaaaaaaaaaaaaa
1   12    bbbbbbbbbbbbbb
2   13     ccccccccccccc
3   14       ddddddddddd

In [34]: store = pd.HDFStore(r'D:\temp\.data\my_test.h5')

In [35]: store.append('test_1', df, data_columns=True)

In [36]: store.get_storer('test_1').table.description
Out[36]:
{
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "num": Int64Col(shape=(), dflt=0, pos=1),
  "s": StringCol(itemsize=16, shape=(), dflt=b'', pos=2)}

In [37]: df.loc[4] = [15, 'X'*200]

In [38]: df
Out[38]:
   num                                                  s
0   11                                   aaaaaaaaaaaaaaaa
1   12                                     bbbbbbbbbbbbbb
2   13                                      ccccccccccccc
3   14                                        ddddddddddd
4   15  XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX...

In [39]: store.append('test_1', df, data_columns=True)
...
skipped
...
ValueError: Trying to store a string with len [200] in [s] column but
this column has a limit of [16]!
Consider using min_itemsize to preset the sizes on these columns

現在はを使用してmin_itemsizeいますが、まだ既存のstoreオブジェクトに追加しています:

In [40]: store.append('test_1', df, data_columns=True, min_itemsize={'s':250})
...
skipped
...
ValueError: Trying to store a string with len [250] in [s] column but
this column has a limit of [16]!
Consider using min_itemsize to preset the sizes on these columns

に新しいオブジェクトを作成する場合、次のように機能しますstore。

In [41]: store.append('test_2', df, data_columns=True, min_itemsize={'s':250})

列のサイズを確認します。

In [42]: store.get_storer('test_2').table.description
Out[42]:
{
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "num": Int64Col(shape=(), dflt=0, pos=1),
  "s": StringCol(itemsize=250, shape=(), dflt=b'', pos=2)}

score 1 · Accepted Answer

Pandas を 18.1 から 22.0 に更新するのとほぼ同時に、このエラーが発生し始めました (これは無関係かもしれませんが)。

min_itemsizeデータフレームを手動で読み取り、エラーに記載されている列のサイズが大きい新しい HDF5 ファイルを書き込むことで、既存の HDF5 ファイルのエラーを修正しました。

filename_hdf5 = "C:\test.h5"
df = pd.read_hdf(filename_hdf5, 'table_name')
hdf = HDFStore(filename_hdf5)
hdf.put('table_name', df, format='table', data_columns=True, min_itemsize={'ColumnNameMentionedInError': 10})
hdf.close()

min_itemsize次に、キーの作成を設定するように既存のコードを更新しました。

専門家向けエクストラ

エラーが発生するのは、新しいデータに対して狭すぎる固定列幅で既存のデータフレームにさらに行を追加しようとしている場合です。固定列幅は、データフレームが最初に書き込まれたときに、列内の最長の文字列に基づいて最初に設定されました。

パンダは、将来のすべての追加に対して実質的に時限爆弾を残すのではなく、このエラーを透過的に処理する必要があると考えています。この問題が表面化するまでには、数週間または数年かかる場合があります。

python - HDF5 min_itemsize エラー: ValueError: [y] 列に長さ [##] の文字列を格納しようとしていますが、この列には [##] の制限があります!

2 に答える 2

専門家向けエクストラ

Related

Reference