Spark/Hadoop 入力言語である Pyspark: データセットで "SJC" などのキーワードを検索し、キーワード "SJC" が見つかった行に対応する 2 番目の列からテキストを返したいと考えています。
たとえば、次のデータセットは次のようになります。
[年] [遅延] [目的地] [フライト番号]
|1987| |-5| |SJC| |500|
|1987| |-5| |SJC| |250|
|1987| |07| |SFO| |700|
|1987| |09| |SJC| |350|
|1987| |-5| |SJC| |650|
「SJC」をクエリして、[Delay] 値をリストまたは文字列として返すことができるようにしたいと考えています。
私はここまで来ましたが、運がありません:
import sys
from pyspark import SparkContext
logFile = "hdfs://<ec2 host address>:9000/<dataset folder (on ec2)>"
sc = SparkContext("local", "simple app")
logData = sc.textFile(logFile).cache()
numSJC = logData.filter(lambda line: 'SJC' in line).first()
print "Lines with SJC:" + ''.join(numSJC)
助けてくれてありがとう!