ハイブ/インパラに2つのテーブルがあります。テーブルからデータをrddsとしてsparkにフェッチし、結合操作を実行したいと考えています。
ハイブ コンテキストで結合クエリを直接渡したくありません。これはほんの一例です。標準の HiveQL では不可能なユースケースが他にもあります。すべての行をフェッチし、列にアクセスして変換を実行するにはどうすればよいですか。
2 つの rdds があるとします。
val table1 = hiveContext.hql("select * from tem1")
val table2 = hiveContext.hql("select * from tem2")
「account_id」という列のrddsで結合を実行したい
理想的には、spark シェルを使用して rdds を使用して、このようなことをしたいと考えています。
select * from tem1 join tem2 on tem1.account_id=tem2.account_id;