次のデータを含むプレーンテキストファイルがあるとします。
DataSetOne <br />
content <br />
content <br />
content <br />
DataSetTwo <br />
content <br />
content <br />
content <br />
content <br />
...等々...
私がしたいのは、各データセットのコンテンツの数を数えることです。たとえば、結果は次のようになります。
<DataSetOne, 3>, <DataSetTwo, 4>
私はHadoopの初心者ですが、データのチャンク全体をノードにマップする方法があるのではないかと思います。たとえば、すべてのDataSetOneをノード1に設定し、すべてのDataSetTwoをノード2に設定します。
誰かが私にこれをアーカイブする方法のアイデアを与えることができますか?