1

私はPythonが初めてで、この問題で多くの問題を抱えています.これは私が仕事のためにやらなければならないことです.

Excel ファイルの背景: 3 列、約 100 行あります。最初の列 (col1) には、A または B が含まれます。2 番目の列 (col2) には、1 から 10 までの任意の数値が含まれます。3 番目の列 (col3) には、任意の 10 進数の値が含まれます。

プログラムに実行させたいのは、データを解析することです。col1 と col2 の重複が多数存在します。たとえば、(A, 1) は行 1、5、20、98 などにありますが、col3 は異なる数値になります。したがって、3 列目の異​​なる数値については、それらすべての数値の平均を求めたいと思います。

出力は次のようになります。

A, 1 = avg 4.32
A, 2 = avg 7.23
A, 3 = avg -9.12
etc etc (until number 10)
B, 1 = avg 3.76
B, 2 = avg -8.12
B, 3 = avg 1.56
etc etc (until number 10)

完全なアルファベット順および数字順である必要はありません。最初に見つかったコンボを出力するだけでかまいません。コンボ数はわずか3。

import xlrd #import package

#opening workbook and reading first sheet
book = xlrd.open_workbook('trend.xls')
sheet = book.sheet_by_index(0)

#function to hold unique combos
unique_combinations = {}

#looping through data
for row_index in range(sheet.nrows):
    #declaring what group equals to what row
    col1 = sheet.cell(row_index, 0)
    col2 = sheet.cell(row_index, 1)
    col3 = sheet.cell(row_index, 2)

    unique_combo = (col1.value, col2.value)

    if unique_combinations.has_key(unique_combo):
        unique_combinations[unique_combo].append(col3.value)
    else:
        unique_combinations[unique_combo] = [col3.value]

for k in unique_combinations.keys():
    l = unique_combinations[k]
    average = sum(l) / len(l)
    print '%s: %s Mean = %s' % (k[0], k[1], average)

基本的には2グループで、その2グループ内に10グループがあり、その10グループに属する数の平均です。

助けてください!よろしくお願いします。

Excel ファイルのサンプル:

col1 | col2 | col3
A    |   1  | 3.12
B    |   9  | 4.12
B    |   2  | 2.43
A    |   1  | 9.54
B    |   8  | 2.43
A    |   2  | 1.08

プログラムが行うことは、最初に出くわした組み合わせが A, 1 であることを確認し、3.12 をリストに格納し、次のものを見て、4 番目の重複に出くわすまで格納し続けます。行。そして、その値も保存します。そして最後に、出力には A, 1 = avg (3.12 + 9.54 / 2) が表示されます。この例は、A, 1 コンボのみを示しています。しかし、実際には (例のように) 2 つのグループしかありませんが、col2 の範囲は 1 から 10 です。多くの重複があります。

4

2 に答える 2

1

パンダを試してみてください:

In [1]: import pandas as pd

In [2]: xls = pd.ExcelFile('test.xls')
   ...: df = xls.parse('Sheet1', header=None)
   ...: 

In [3]: df
Out[3]: 
   0  1     2
0  A  1  3.12
1  B  9  4.12
2  B  2  2.43
3  A  1  9.54
4  B  8  2.43
5  A  2  1.08

In [4]: groups = df.groupby([0,1])

In [5]: for k, g in groups:
   ...:     print k, g[2].mean()
   ...:     
(u'A', 1.0) 6.33  # your example (3.12 + 9.54) / 2
(u'A', 2.0) 1.08
(u'B', 2.0) 2.43
(u'B', 8.0) 2.43
(u'B', 9.0) 4.12

リストとしてすべての手段が必要な場合、完全なスクリプトは次のようになります。

import pandas as pd
df = pd.ExcelFile('test.xls').parse('Sheet1', header=None)
print [g[2].mean() for _, g in df.groupby([0,1])]
# out: [6.3300000000000001, 1.0800000000000001, 2.4300000000000002, 2.4300000000000002, 4.1200000000000001]
于 2013-03-12T23:10:24.347 に答える
1

この提案は、「何が起こっているのかを理解する方法」であり、コメントよりも回答の方が読みやすくなります。

デバッグ出力と例外処理を追加する価値があると思います。

OpenOffice と Python 2.7 でサンプルを試しました。最終ループ中に例外が発生した場合、およびテスト実行で stderr を飲み込んでいた場合、症状を再現できました。例えば:python test.py 2>nul

だから私はあなたがこれを試すことをお勧めします:


    import xlrd
    book = xlrd.open_workbook('trend.xls')
    sheet = book.sheet_by_index(0)
    unique_combinations = {}
    for row_index in range(sheet.nrows):
        col1 = sheet.cell(row_index, 0)
        col2 = sheet.cell(row_index, 1)
        col3 = sheet.cell(row_index, 2)

        unique_combo = (col1.value, col2.value)
        if unique_combinations.has_key(unique_combo):
            print 'Update: %r = %r' % (unique_combo, col3.value)
            unique_combinations[unique_combo].append(col3.value)
        else:
            print 'Add: %r = %r' % (unique_combo, col3.value)
            unique_combinations[unique_combo] = [col3.value]

    for k in unique_combinations.keys():
        l = unique_combinations[k]
        try:
          average = sum(l) / len(l)
          print '%s: %s Mean = %s' % (k[0], k[1], average)
        except Exception, e:
          print 'Ignoring entry[%r]==%r due to exception %r' % (k, l, e)

それは、私たちの「奇妙な行動」を理解するのに役立つはずです.

于 2013-03-12T23:17:05.030 に答える