Hadoop とそのすべての派生物は初めてです。そして、私は、利用可能な豊富な情報に本当におびえています。
しかし、私が気付いたことの 1 つは、Hadoop または分散コードの実装/使用を開始するには、基本的に問題に対する考え方を変える必要があるということです。
誰かが次のことで私を助けることができるかどうか疑問に思っていました.
だから、基本的に(他の人と同じように)私は生データを持っています..それを解析して情報を抽出し、アルゴリズムを実行して結果を保存したいと思います。
データが次のようなテキストファイル「foo.txt」があるとしましょう:
id,$value,garbage_field,time_string\n
1, 200, grrrr,2012:12:2:13:00:00
2, 12.22,jlfa,2012:12:4:15:00:00
1, 2, ajf, 2012:12:22:13:56:00
ご覧のとおり、ID は繰り返すことができます。この ID は、顧客が費やした金額のようなものです!! 私がやりたいことは、結果を、各顧客が「朝」、「午後」、「夕方」、「夜」に費やした金額を含むファイルに保存することです (いくつかの時間バケットを定義して、午前と午後を定義できます)。たとえばここはおそらく
1, 0,202,0,0
1 is the id, 0--> 0$ spent in morning, 202 in afternon, 0 in evening and night
今、私はそれのためのpythonコードを持っています..しかし、私はこれを豚に実装する必要があります..開始するには.. 誰かがこれを通して私を書いたり案内したりできるなら..それは私が始めるために必要なすべてです.
ありがとう