数百万行のトランザクション マーケット バスケット データに対してアフィニティ分析を行うための高速な方法を見つけようとしています。
私がこれまでに行ったこと:
- クラウド (Azure HDInsight) 上の Spark と Hadoop の上に R サーバーを作成しました
- HDFS に読み込まれたデータ
- RevoScaleR の使用を開始する
しかし、最後のステップで行き詰まりました。私の知る限り、RevoScaleR で提供されていない関数を使用してデータを処理することはできません。
HDFS 上のデータにアクセスするためのコードは次のとおりです。
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
したがって、私の入力ファイルは、既に /basket/gunluk に作成されている Azure Blob 内の CSV です。
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
これを実行した後、head(gunluk_data) を使用してデータを表示できます。
gunluk_dataをarulesパッケージ関数で使用するにはどうすればよいですか。これは可能ですか?
そうでない場合、通常の R パッケージ (ルール) を使用して HDFS にある CSV ファイルを処理することは可能ですか?