python - 科学データ分析のための Python でのストリーミング

Question

ラップトップの単一ノードクラスタで Hadoop を使い始めたばかりで、Java よりもよく知っている Python で実行しようとしました。どうやらストリーミングは、他のパッケージをインストールせずにこれを行う最も簡単な方法です。

私の質問は、ストリーミングで少しデータ分析を行うとき、次のことをしなければならなかったということです。

テキストファイルを入力としてワードカウントを行うと、すべてがうまく見えます。しかし、ストリーミング内でデータ構造をどのように処理しますか? 私のやり方は受け入れられないようです...

score 1 · Accepted Answer

独自のエンコード/デコードプロトコル、ストリーミングマトリックス行を rownum-values ペアとして記述したり、すべての要素を row:col-value ペアなどとして記述したりできます。

いずれにせよ、hadoop は行列演算で使用するのに最適なフレームワークではありません。これは、相互に関連しない大量のデータ用に設計されているためです。つまり、キーと値の処理が他の値に依存しない場合、または非常に限られた方法で依存する場合です。

score 0 · Accepted Answer

json をテキスト形式として使用すると、エンコードとデコードが非常に便利になります。

たとえば、hdfs の 4*4 単位行列は次のように格納できます。

{"row":3, "values":[0,0,1,0]}
{"row":2, "values":[0,1,0,0]}
{"row":4, "values":[0,0,0,1]}
{"row":1, "values":[1,0,0,0]}

マッパーjson.loads()では、json ライブラリを使用して各行を解析し、操作が非常に簡単な Python 辞書にします。次に、キーに続いてさらに json を返します ( json.dumps()python オブジェクトを json としてエンコードするために使用します)。

1    {"values":[1,0,0,0]}
2    {"values":[0,1,0,0]}
3    {"values":[0,0,1,0]}
4    {"values":[0,0,0,1]}

レデューサーjson.loads()では、値を使用して Python 辞書を作成します。これらは、たとえば、numpy 配列に簡単に変換できます。

2 に答える 2