私はdefaultdict
次のようなものを持っています:
"Some text" : ["Some date", "Some date", "Some Date"]
次のように、各キーの個々の値にアクセスしようとしています。
for processedTweet, date in tweetsDict.iteritems():
print date
for d in date:
print d
これは、通常の Python スクリプトでは正常に機能します。最初にリスト全体を出力し、次に for ループで個々の日付を出力します。
しかし、これを Map/Reduce ジョブの一部として Hadoop に送信すると、リストが文字列ではなく個々の文字に分割されます。つまり、次のようになります。
Some date
になる
S
o
m
など。なぜこれが起こっているのですか?どうすれば修正できますか?