2

私はパンダに解析した貸借対照表を扱っています:

    table = xls_file.parse('Consolidated_Balance_Sheet')
    table.ix[:, 1]

    0         None
    1         None
    2      $ 3,029
    3         1989
    5         None
    6     $ 34,479

行をユニコードで識別し、$ 記号とコンマを取り除き、浮動小数点数に変換しようとしています。

    for row in table.ix[:, 1]:
        if isinstance(row, unicode):
            print type(row), row
            num = float(row.lstrip('$').replace(',',''))
            print num
            row = num
            print type(row), row

これにより、次の出力が生成されます。

    <type 'unicode'> $ 3,029
    3029.0
    <type 'float'> 3029.0
    <type 'unicode'> $ 34,479
    34479.0
    <type 'float'> 34479.0

ただし、テーブルを確認すると値は変更されていません

    table.ix[2, 1]
    u'$ 3,029'

値を float に正しく変更するにはどうすればよいですか?

編集: 2 つの応答をありがとう、私は問題なくそれらを再現できます。ただし、私の場合に適用機能を使用すると、「ハッシュできない型」エラーが発生します。

In [167]: thead = table.head()
In [168]: thead

Out[168]:
         Consolidated Balance Sheet (USD $)  Sep. 30, 2012  Dec. 31, 2011
    0    In Millions, unless otherwise specified     None    None
    1    Current assets                              None    None
    2    Cash and cash equivalents                   $ 3,029 $ 2,219
    3    Marketable securities - current             1989    1461
    4    Accounts receivable - net                   4409    3867

In [170]: def no_comma_or_dollar(num):
              if isinstance(num, unicode):
                  return float(num.lstrip('$').replace(',',''))
              else:
                  return num

          thead[:, 1] = thead[:, 1].apply(no_comma_or_dollar)

以下を生成します。

 TypeError: unhashable type

キーを変更しているのではなく、値だけを変更しているため、理由がわかりません。データフレームの値を変更する別の方法はありますか?

EDIT2

In [171]: thead.to_dict()
Out[171]: {u'Consolidated Balance Sheet (USD $)': {0: u'In Millions, unless otherwise specified',
  1: u'Current assets',
  2: u'Cash and cash equivalents',
  3: u'Marketable securities - current',
  4: u'Accounts receivable - net'},
 u'Dec. 31, 2011': {0: None, 1: None, 2: u'$ 2,219', 3: 1461.0, 4: 3867.0},
 u'Sep. 30, 2012': {0: None, 1: None, 2: u'$ 3,029', 3: 1989.0, 4: 4409.0}}
4

2 に答える 2

3

これらを印刷するだけapplyで、DataFrame に送信するのではありません。これを行う 1 つの方法を次に示します。

ストライピング (Unicode の場合) を行う関数を作成するか、既に数値の場合はそのままにしておきます。

def no_comma_or_dollar(num):
    if isinstance(num, unicode):
        return float(num.lstrip('$').replace(',',''))
    else:
        return num

table[col_name] = table[col_name].apply(no_comma_or_dollar)

例えば:

df = pd.DataFrame([[u'$1,000'], [200.]])

In [3]: df[0].apply(no_comma_or_dollar)
Out[3]: 
0    1000
1     200
Name: 0

アップデート:

あなたが与える で、少し怠惰なバージョンのandthreadを与えたくなるでしょう:no_comma_or_dollarapplymap

def no_comma_or_dollar2(num):
    try:
        return float(num.lstrip('$').replace(',',''))
    except: # if you can't strip/replace/convert just leave it
        return num

In [5]: thread.applymap(no_comma_or_dollar2)
Out[5]: 
        Consolidated Balance Sheet (USD $)  Dec. 31, 2011  Sep. 30, 2012
0  In Millions, unless otherwise specified            NaN            NaN
1                           Current assets            NaN            NaN
2                Cash and cash equivalents           2219           3029
3          Marketable securities - current           1461           1989
4                Accounts receivable - net           3867           4409
于 2013-01-19T17:46:39.677 に答える
3

私があなたを正しく理解していれば、あなたは方法を探していますapply

In [33]: import pandas as pd

In [34]: table = pd.Series([None, u'$ 3,12', u'$ 4,5'])

In [35]: table
Out[35]: 
0      None
1    $ 3,12
2     $ 4,5

In [36]: def f(cell):
   ....:     if isinstance(cell, unicode):
   ....:         return float(cell.lstrip('$').replace(',',''))
   ....:     else:
   ....:         return cell
   ....:     

In [37]: table.apply(f)
Out[37]: 
0    NaN
1    312
2     45

これにより、新しいオブジェクトが作成されます。古いオブジェクトの代わりに新しいオブジェクトを保存するには、次のようにします。

In [42]: table = table.apply(f)

In [43]: table
Out[43]: 
0    NaN
1    312
2     45
于 2013-01-19T17:46:54.587 に答える