python - 複数値列で JSON データをフィルタリングする方法

翻译自：https://stackoverflow.com/questions/32443939 2015-09-07T17:57:47.347

1499 次

Spark SQL の助けを借りて、特定のグループカテゴリに属するすべてのビジネスアイテムを除外しようとしています。

データは JSON ファイルからロードされます。

businessJSON = os.path.join(targetDir, 'yelp_academic_dataset_business.json')
businessDF = sqlContext.read.json(businessJSON)

ファイルのスキーマは次のとおりです。

businessDF.printSchema()

root
  |-- business_id: string (nullable = true)
  |-- categories: array (nullable = true)
  |    |-- element: string (containsNull = true)
  ..
  |-- type: string (nullable = true)

レストランビジネスに関連するすべてのビジネスを抽出しようとしています。

restaurants = businessDF[businessDF.categories.inSet("Restaurants")]

しかし、予想される列のタイプは文字列である必要があることを理解しているため、機能しませんが、私の場合、これは配列です。それについて私に例外を教えてくれます：

Py4JJavaError: An error occurred while calling o1589.filter.
: org.apache.spark.sql.AnalysisException: invalid cast from string to array<string>;

私が欲しいものを手に入れるための他の方法を提案してもらえますか？

python - 複数値列で JSON データをフィルタリングする方法

1 に答える 1

Related

Reference