python - 多くのテキストファイルの大量のデータ - 処理方法は?

Question

大量のデータ (数テラバイト) があり、蓄積しています... それらは多くのタブ区切りのフラットテキストファイル (それぞれ約 30MB) に含まれています。ほとんどのタスクには、データを読み取り、一連の述語ステートメントに基づいて観測/行を集計 (合計/平均 + 追加の変換) し、出力をテキスト、HDF5、または SQLite ファイルなどとして保存することが含まれます。通常は R を使用します。そのようなタスクの場合、これは少し大きいのではないかと心配しています。解決策の候補のいくつかは、

すべてを C (または Fortran) で書く
ファイル (テーブル) をリレーショナルデータベースに直接インポートしてから、R または Python でチャンクを取得します (一部の変換は、純粋な SQL ソリューションには適していません)。
全体をPythonで書く

(3)はまずいのでしょうか？Python で C ルーチンをラップできることは知っていますが、この場合、計算上禁止されているもの (たとえば、多くの反復計算を必要とする最適化ルーチン) がないため、I/O が計算自体と同じくらいボトルネックになる可能性があると思います。さらなる考慮事項や提案について何か推奨事項はありますか? ありがとう

編集回答ありがとうございます。Hadoop については意見が対立しているようですが、いずれにせよ、クラスターにアクセスすることはできません (ネットワーク化されていない複数のマシンを使用することはできますが)。

score 14 · Accepted Answer

(3) は必ずしも悪い考えではありません。Python を使用すると、「CSV」ファイルを簡単に処理できます (また、C は Comma の略ですが、セパレータとしてのタブは同じくらい簡単に処理できます)。もちろん、ほぼ同じ帯域幅を取得できます。他の言語と同様に I/O ops で。他の推奨事項についてnumpyは、高速計算 (ステートメントによっては必要ない場合があります) に加えて、非常に便利で柔軟な多次元配列が提供されます。これはタスクに非常に便利です。また、標準ライブラリモジュールmultiprocessingを使用すると、並列化が容易なタスクに複数のコアを活用できます (最近のほぼすべてのマシンにマルチコアがあるため、重要です ;-)。

score 13 · Accepted Answer

さて、違いますが、なぜRではないのですか？

あなたはRを知っているようですので、コードをすぐに動作させることができます
ファイルあたり30MBは、RAMが数GBの標準的なワークステーションでは大きくありません。
引数を介して列のタイプを指定すると、のread.csv()バリアントはread.table()非常に効率的になりますcolClasses。変換のためにタイプをゲスト化する代わりに、これらは効率的に処理されます。
ここでのボトルネックはディスクからのI/Oであり、これはすべての言語で同じです。
Rには、マルチコアを備えたマシンで並列処理をセットアップするためのマルチコアがあります（Pythonのマルチプロセッシングと同様のようです）
問題の「驚異的並列」構造を採用したい場合、Rには、データ並列問題に適したパッケージがいくつかあります。たとえば、 snowとforeachは、それぞれ1台のマシンまたはネットワーク化されたマシンのセットにデプロイできます。。

score 6 · Accepted Answer

ディスコをご覧ください。これは軽量の分散 MapReduce エンジンで、約 2000 行の Erlang で記述されていますが、特に Python 開発用に設計されています。データの操作だけでなく、レプリケーションの確実な保存もサポートします。彼らはちょうどバージョン 0.3 をリリースしました。これにはインデックス作成とデータベースレイヤーが含まれています。

score 4 · Accepted Answer

Amazon の Elastic Map Reduce で R を Hadoop と一緒に使用できて幸運でした。EMR では、使用したコンピューター時間に対してのみ料金が発生し、AMZN がインスタンスのスピンアップとスピンダウンを処理します。EMR でジョブをどのように構成するかは、分析ワークフローがどのように構成されているかによって異なります。たとえば、1 つのジョブに必要なすべてのレコードが各 csv 内に完全に含まれているか、または分析を完了するために各 csv のビットが必要ですか?

役立つリソースを次に示します。

AMZN ディスカッションフォーラムで R と AMZN EMRについて話している Pete Skomoroch 氏
R と AMZN EMR の開始に関する私のブログ投稿
Rhipe プロジェクトは、R と Hadoop の統合を目指しています。ただし、Rhipe は EMR に重点を置いていないため、まだ使用していません。ただし、EMRにブリッジ可能であるように思われます。

ブログ投稿で言及した問題は、IO バウンドではなく、CPU バウンドの問題です。あなたの問題はより多くの IO ですが、ライブラリとキャッシュファイルのロードに関するヒントが役立つ場合があります。

これをリレーショナルデータベースに出し入れしようとするのは魅力的ですが、RDB のすべてのオーバーヘッドが本当に必要かどうかを慎重に検討することをお勧めします。そうしないと、本当の見返りがないボトルネックと開発課題が発生する可能性があります。

score 4 · Accepted Answer

テラバイトでは、とにかく多くのディスクで読み取りを並列化する必要があります。そのまま Hadoop に移行することもできます。

Pig または Hive を使用してデータをクエリします。どちらもユーザー定義の変換を幅広くサポートしているため、カスタムコードを使用して必要なことを実装できるはずです。

score 2 · Accepted Answer

「蓄積する」と言うと、解決策（2）が問題に最も適しているように見えます。
データベースに最初にロードした後は、新しいファイルでデータベースを更新するだけです（毎日、毎週？これが必要な頻度によって異なります）。

（1）と（3）の場合、結果を保存して新しいファイルで更新する方法が見つからない限り、毎回ファイルを処理する必要があります（以前に最も時間/リソースを消費すると述べたもの）。

Rを使用して、csvからSQLiteデータベースなどへのファイルを処理できます。

score 2 · Accepted Answer

マシンのクラスターがある場合は、Hadoop Mapreduce を使用してアプリケーションを並列化できます。Hadoop は Java で作成されていますが、Python も実行できます。コードを並列化するためのポインターについては、次のリンクをチェックアウトできます - PythonWordCount

score 1 · Accepted Answer

はい。あなたが正しいです！I/O は、処理時間のほとんどを消費します。このタスクに Hadoop などの分散システムを使用することはお勧めしません。

あなたの仕事は、控えめなワークステーションで行うことができます。私は Python の専門家ではありませんが、非同期プログラミングをサポートしていると思います。F#/.Net では、プラットフォームはそれを十分にサポートしています。私はかつて、20K の画像をディスクにロードし、それらを特徴ベクトルに変換する画像処理の仕事をしていましたが、並行して数分しかかかりませんでした。

全体として、データを並行してロードして処理し、結果をメモリ (小さい場合)、データベース (大きい場合) に保存します。

python - 多くのテキスト ファイルの大量のデータ - 処理方法は?

8 に答える 8

Related

Reference

python - 多くのテキストファイルの大量のデータ - 処理方法は?