r - Hadoop を使用した R でのマーケットバスケット分析

Question

数百万行のトランザクションマーケットバスケットデータに対してアフィニティ分析を行うための高速な方法を見つけようとしています。

私がこれまでに行ったこと：

クラウド (Azure HDInsight) 上の Spark と Hadoop の上に R サーバーを作成しました
HDFS に読み込まれたデータ
RevoScaleR の使用を開始する

しかし、最後のステップで行き詰まりました。私の知る限り、RevoScaleR で提供されていない関数を使用してデータを処理することはできません。

HDFS 上のデータにアクセスするためのコードは次のとおりです。

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")

したがって、私の入力ファイルは、既に /basket/gunluk に作成されている Azure Blob 内の CSV です。

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)

これを実行した後、head(gunluk_data) を使用してデータを表示できます。

gunluk_dataをarulesパッケージ関数で使用するにはどうすればよいですか。これは可能ですか？

そうでない場合、通常の R パッケージ (ルール) を使用して HDFS にある CSV ファイルを処理することは可能ですか?

r - Hadoop を使用した R でのマーケット バスケット分析

1 に答える 1

Related

Reference

r - Hadoop を使用した R でのマーケットバスケット分析