0

約 500 万行 (および増加中) の Twitter フィードがあり、Pandas (できればBlaze ) を使用して読み取り/書き込みアクセスを高速化するために、それらを効率的に保存したいと考えています。1 つのツイートの膨大なメタデータから、[username, tweet time, tweet & tweet ID]. それほど多くはありません。また、ツイートはすべてunicode暗号化されています。このデータを保存する最良の方法は何ですか? 私は現在、それらを一連の CSV に保存していますが、データが大きくなるため実行可能なソリューションとは思えないため、DB に移動する予定です。私は最初に HDF5 について考えましたが、Unicode 列の保存にはまだ問題があります (Python 3 でも)。

Blaze はデータベースに対して優れたサポートを提供しているため (分析にも優れていると思います)、私の問題に対する優れたアーキテクチャ ソリューション (可能であれば、運用レベルで) を教えてください。私のデータも構造化されているため、NoSQL ソリューションの必要性は感じていませんが、提案は受け付けています。

現在、これらの 5 MM 行は約 1 GB のスペースしか占めておらず、数十 GB を超えることはないと思います。では、 を使用Postgresするのが最善のアイデアですか?

ありがとう

4

1 に答える 1

1

はい、PostgresSQL数十 GB のアプリケーションに最適です。ドライバーでsqlalchemyの使用は簡単で、コマンド ライン ツールは問題ありません。psycopg2psql

pgcliテーブル名と列名のタブ補完を提供する PostgresSQL への素晴らしいコマンドライン インターフェイスが呼び出されます。強くお勧めします。このツールだけでも、PostgresSQL を使用するよう促すには十分かもしれません。

于 2016-01-23T01:04:13.843 に答える