Apache Hadoop / Hiveを使用して、さまざまなダウンストリームアプリケーションのデータフィードを生成するためのハイブクエリスクリプトのコレクションを含むプロジェクトに着手しようとしています。これらのスクリプトは、一部の単体テストの理想的な候補のように見えます。これらは、データストアとクライアントアプリケーション間のAPIコントラクトの履行を表しているため、特定の開始データのセットに対して期待される結果を記述するのは簡単です。私の問題は、これらのテストを実行する方法です。
SQLクエリを使用している場合は、SQLliteやDerbyなどを使用して、テストデータベースをすばやく起動し、テストデータをロードして、それらに対してクエリテストのコレクションを実行できます。残念ながら、私はHive用のそのようなツールを知りません。現時点では、テストフレームワークでHadoopローカルインスタンスを起動し、それに対してHiveを実行することをお勧めしますが、これまでに行ったことがなく、それが機能するか、正しいパスになるかはわかりません。
また、私が行っているのが単体テストなのか統合テストなのかについての衒学的な議論には興味がありません。コードが機能することを証明できればよいだけです。