-1

2 つの大きなファイルを比較するプログラムを作成しようとしています。2 つのファイルは毎日金融取引を比較する必要があります。ファイルは xml または csv 形式にすることができます。ファイルごとに 300 万から 400 万行、50 列あります。照合は、一連のキー フィールドによって定義された領域に基づいて行われます。

出力は、同じキーを持つがデータが異なる行を識別する必要があります

SQL 比較 (テーブル内の各ファイル) を使用しました。動作しますが、Oracle などのデータベースと強力なサーバーが必要です。

MapReduce の概念またはベース nosql を使用したソリューションがある場合

4

1 に答える 1

0

その点で、任意のrdbms(oracle、sqlサーバー、mysql、postgre)で2つの3〜4mのインデックス付きテーブルを毎日比較することは問題ではないと思いますし、時間もかかりません。

Hadoop などの MapReduce ベースのデータ処理システムを使用して、同じことを行うこともできます。私たちの (Xplenty) を含め、サービスとしての Hadoop プラットフォームがいくつかあります。これは、このタイプの処理を行うためのコストを削減できるように、従量課金制の価格設定ですばやく実行できるようにするのに役立ちます。数百万レコードの単純な比較に MapReduce ベースのソリューションを使用することはお勧めしませんが、比較が複雑な場合は試してみてください。

于 2013-08-07T07:49:30.060 に答える