問題タブ [warehouse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - spark sqlは、以前に書き込んだデータベースとテーブルを見つけることができません
変換されたデータから SQL テーブルを作成する Spark コンポーネントがあります。<database_name>.db フォルダーの下の spark-warehouse にデータが正常に保存されます。コンポーネントは、やみくもに上書きしないように、既存のテーブルからの読み取りも試みます。読み取り中、spark はデフォルト以外のデータベースを見つけることができません。
sparkバージョン: 2.4
saveInitialTable 関数が正常に実行された後。2 回目の実行では、重複排除機能はまだ <database_name> を取得できません。
私はハイブをどこでも明示的に使用していません.DataFrameとSQL APIをスパークさせるだけです.
spark-warehouse と同じディレクトリで repl を実行すると、デフォルトのデータベースも表示されます。
etl - データ ウェアハウス データで外部 API を呼び出すための標準的な手法
データ ウェアハウスのデータを使用して外部 API をクエリし、ウェアハウス内のテーブルに書き戻す標準的な方法は何ですか?
通常のデータベース + バックエンド サーバーでは、DB と直接通信し、DB から読み取り、API にクエリを実行し、行に書き戻して列を更新できます。しかし、データ ウェアハウスでは、通常のバックエンド サーバーが直接アクセスすることはできません。
では、人々が倉庫に使用する通常の手法は何ですか? オンデマンドで実行される Lambda 関数? 気流のようなスケジューラ?