ラップトップの単一ノード クラスタで Hadoop を使い始めたばかりで、Java よりもよく知っている Python で実行しようとしました。どうやらストリーミングは、他のパッケージをインストールせずにこれを行う最も簡単な方法です。
私の質問は、ストリーミングで少しデータ分析を行うとき、次のことをしなければならなかったということです。
- データ (行列、配列 ...) を、ストリーミング用のデフォルトの入力ファイル形式に適合するテキスト ファイルに変換します。
- mapper.py でデータを再構築して、明示的に (キー、値) ペアを作成し、それらを出力します。
- 結果をテキスト形式で読み取り、行列データに変換して、他の処理を実行できるようにします。
テキストファイルを入力としてワードカウントを行うと、すべてがうまく見えます。しかし、ストリーミング内でデータ構造をどのように処理しますか? 私のやり方は受け入れられないようです...