1

私は新しい pythoner です。今、サイズが 250MB の Json ファイルを読みたいと思っています。これは私のメモリにとってはかなり大きいです。このファイルには、何千ものグループのユーザー データが含まれています。

ユーザー データのグループの例を次に示します。

{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "0a2KyEL0d3Yb1V6aivbIuQ", "review_id": "IjZ33sJrzXqU-0X6U8NwyA", "stars": 5, "date": "2011-07-27", "text": "I have no idea why some people give bad reviews about this place. It goes to show you, you can please everyone. That goes to show you that  you have to try these things yourself because all these bad reviewers have some serious issues.", "type": "review", "business_id": "ZRJwVLyzEJq1VAihDhYiow"}

私の目標は、「テキスト」タグに従って、各ユーザーの単語モデルのバッグを構築することです。したがって、私の現在のアイデアは、この大きなファイルをロードすることです。しかし、私の記憶ではこのワークロードをサポートできないと思います。このタスクに良いアイデアはありますか、またはファイルを各ユーザーデータに対応する多数のファイルに分割できるかどうか?

4

1 に答える 1

0

ユーザーデータをcouchbaseまたは他のDBに保持し、lru_cacheでラップすることをお勧めします。

その理由は、すべてのデータをメモリに保持することはできないため、一部をディスクに保持する必要があるからです。どのデータがメモリ内にあるか、どのデータがディスク上にあるかを調整する必要がある場合は、データベースを使用してそれを行うのが最善です。

于 2013-04-28T02:24:33.513 に答える