Blaze とローカルの Spark インスタンスを使用して、かなり簡単なことをしようとしています。blaze の into() を使用して csv ファイルをロードし、blaze の by() を使用する
Python 3.4
Spark 1.4.0
Blaze 0.8.0
csv (シンプル.csv)
id,car
1,Mustang
2,Malibu
3,Mustang
4,Malibu
5,Murano
コード
mport blaze as bz
rdd = bz.into(sc,"simple.csv")
simple = bz.Data(rdd)
simple.count() #gives me 5 so far so good
bz.by(simple.car, count=simple.id.count()) #throws an error
AttributeError: 'InteractiveSymbol' object has no attribute 'car'
ここで何が起こっているかについてのアイデアはありますか?
サイドノート; これは動作します
simple_csv = bz.Data("simple.csv")
bz.by(simple_csv.car, count=simple_csv.id.count())
car count
0 Malibu 2
1 Murano 1
2 Mustang 2
そして、これもそうです
simple_csv.car.count_values()
car count
0 Malibu 2
2 Mustang 2
1 Murano 1
それをSparkに「ロード」する方法が必要ですよね?