1
library(sparklyr)
library(dplyr)
home <- "/usr/hdp/current/spark-client"
sc <- spark_connect(master = "yarn-client", spark_home = home, version = "1.6.2")
readFromSpark <- spark_read_csv(sc, name="test", path ="hdfs://hostname/user/test.csv",header=TRUE)

hdfs私はすでにsparklyrを使用して正常にアクセスしています。sparklyrしかし、これをハイブに保存する必要があるため、ハイブテーブル/コマンドにアクセスする方法df

4

3 に答える 3

0

これが私がこれを達成する方法です:

セットアップ:

cc <- RxSpark(nameNode = hdfs_host(myADL))
rxSetComputeContext(cc)

myXDFname <- 'something'
hivTbl <- RxHiveData(table = myXDFname)

sc <- spark_connect('yarn-client')

tbl_cache(sc, myXDFname)
mytbl <- tbl(sc, myXDFname)

今それで何かをする

mytbl %>% head

mytbl %>% 
   filter(rlike(<txt col>, pattern)) %>%
   group_by(something) %>%
   tally() %>%
   collect() %>% #this is important
   ggplot(., aes(...)) %>%
   geom_triforce(...)
于 2018-04-26T02:20:38.273 に答える
0

spark_write_table を試すことができます:

    spark_write_table(readFromSpark, 
    '<database_name>.readFromSpark', mode = 'overwrite')

スキーマも作成している場合は、DBI パッケージを使用できます。

    dbSendQuery(sc,"CREATE SCHEMA IF NOT EXISTS xyz")
    tbl_change_db(sc,"xyz")
于 2018-03-19T13:49:09.707 に答える