小さな Hadoop と Greenplum クラスターがあります。
現在のデータ パイプライン フローは次のとおりです。
External table >> hadoop-hawq external readbale table >>hawq internal table.
出力 : 1.GREENPLUM を使用してデータ パイプラインを拡張しようとしています。基本的に、HAWQ の内部テーブルまたは外部の読み取り可能なテーブル データを直接 greenplum にプッシュしたいと考えています。理由は、ファイルを編集したいからです。また、HAWQ は更新と削除をサポートしていません。データにアプローチまたはプッシュする別の方法はありますか。ガイドしてください。
2.gphdfsプロトコルでGPDB外部テーブル経由でHDFSデータにアクセスする方法
前もって感謝します!