Dimonson 250.000 x 250.000 で pandas SparseDataFrame を作成したいと思います。最終的に私の目的は、大きな隣接行列を考え出すことです。
これまでのところ、そのデータ フレームを作成するのに問題はありません。
df = SparseDataFrame(columns=arange(250000), index=arange(250000))
しかし、DataFrame を更新しようとすると、大規模なメモリ/ランタイムの問題が発生します。
index = 1000
col = 2000
value = 1
df.set_value(index, col, value)
ソースを確認しました:
def set_value(self, index, col, value):
"""
Put single value at passed column and index
Parameters
----------
index : row label
col : column label
value : scalar value
Notes
-----
This method *always* returns a new object. It is currently not
particularly efficient (and potentially very expensive) but is provided
for API compatibility with DataFrame
...
後者の文は、パンダを使用してこの場合の問題を説明していますか? この場合、パンダを使い続けたいのですが、この場合はまったく不可能です!
誰かがこの問題をより効率的に解決する方法を知っていますか? 私の次のアイデアは、ネストされたリスト/ディクテーションなどを扱うことです...
ご協力いただきありがとうございます!