1

Python では、特定の条件に一致する特定のプロパティを持つオブジェクトの数を定期的に計算するプロジェクトに取り組んでいます。タプル、オブジェクト、またはデータベースのリストでこれを行う方法はわかりますが、この方法でオブジェクトのリストをフィルタリングすることが「明白なpythonic」方法であるかどうか疑問に思います。

私が考えたオプションは次のようになります。

list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len(filter(object_type.property2_test(property2),
    filter(object_type.property1_getter, list_of_all)

list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
    if candidate.property1 and candidate.property2 == property2])

list_of_all = [(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
    if candidate[1] and candidate[2] == property2])

db_cursor.execute("""CREATE TABLE table_of_all
    (property0 INTEGER, property1 INTEGER, ...)""")
number_of_matches = len(db_cursor.execute("""SELECT 1 FROM table_of_all
    WHERE property1 = 1 AND property2 = ?""", (property2,)).fetchall())

私のコードのコンテキストで最後の 2 つを使用すると、timeit は非常に大きな違いがあることを教えてくれます。

$ python -m timeit -n 100 'import with_db' | tail -n1
100 loops, best of 3: 0.751 usec per loop
$ python -m timeit -n 100 'import with_list' | tail -n1
100 loops, best of 3: 0.761 usec per loop

両方の値が毎回 0.751 から 0.811 の間のどこかにあります。

一般に、私のユースケースは、数百 (テスト目的) から少なくとも 40000 個のオブジェクトで構成されています。これらはシミュレーション ループで使用されます (待機する I/O はありません)。すべてのループ反復は、これらのルックアップの約 50 回で構成され、おそらく 1 つのプロパティの最大値と 2 つのオブジェクトの更新を見つけますが、最善の解決策がある他のユース ケースがある場合は、それも興味深いでしょう。

このタイプのタスクに対して明確に優れたソリューションはありますか、またはこれらのソリューションのいずれかを選択すると違いが生じる明確なタイプのタスクはありますか?

4

1 に答える 1

5

データベースにカウントをさせることができます:

SELECT COUNT(*) FROM table_of_all
    WHERE property1 = 1 AND property2 = ?

sumPython では、ジェネレータ式を使用して中間リストの作成を回避できます。

sum(1 for candidate in list_of_all
    if candidate.property1 and candidate.property2 == property2)
于 2012-10-26T17:04:28.650 に答える