私の要件は
- Oracle から HDFS にデータを移動する
- HDFS でデータを処理する
- 処理されたデータを Teradata に移動します。
また、この処理全体を 15 分ごとに実行する必要があります。ソース データの量は 50 GB 近くになる可能性があり、処理されるデータも同じである可能性があります。
インターネットでいろいろ調べた結果、たどり着いたのが
- Oracle から HDFS にデータを移動するための ORAOOP (シェル スクリプト内のコードを用意し、必要な間隔で実行するようにスケジュールします)。
- カスタム MapReduce または Hive または PIG のいずれかによって大規模な処理を行います。
- SQOOP - HDFS から Teradata にデータを移動するための Teradata コネクタ (ここでも、コードを含むシェル スクリプトを用意してスケジュールします)。
これはそもそも正しいオプションであり、必要な期間に実行可能ですか (これは毎日のバッチなどではないことに注意してください)。
私が見つけた他のオプションは次のとおりです
- STORM (リアルタイム データ処理用)。しかし、箱から出してすぐにオラクルのスパウトまたはテラデータのボルトを見つけることができません。
- Talend や Pentaho などのオープン ソース ETL ツール。
これらのオプションやその他の可能性について、ご意見をお聞かせください。