次の形式の CSV ファイルがあります。
product_id1,product_title1
product_id2,product_title2
product_id3,product_title3
product_id4,product_title4
product_id5,product_title5
[...]
product_idX は整数で、product_titleX は文字列です。例:
453478692, Apple iPhone 4 8Go
ファイルから TF-IDF を作成して、MLlib の Naive Bayes Classifier に使用できるようにしようとしています。
これまでのところ、Spark for Scala を使用しており、公式ページと Berkley AmpCamp 3および4で見つけたチュートリアルを使用しています。
だから私はファイルを読んでいます:
val file = sc.textFile("offers.csv")
次に、タプルでマッピングしていますRDD[Array[String]]
val tuples = file.map(line => line.split(",")).cache
タプルをペアに変換した後RDD[(Int, String)]
val pairs = tuples.(line => (line(0),line(1)))
しかし、私はここで立ち往生しており、そこからベクターを作成してTFIDFに変換する方法がわかりません。
ありがとう