これが私がやりたいことです。今、私は次のようなテキストファイルをいくつか持っています:
<page>
<url>xxx.example.com</url>
<title>xxx</title>
<content>abcdef</content>
</page>
<page>
<url>yyy.example.com</url>
<title>yyy</title>
<content>abcdef</content>
</page>
...
そして、マッパーで分割されたファイルを読み取り、それらをキーと値のペアに変換したいと考えています。ここで、各値は 1 つの<page
> タグ内のコンテンツです。
私の問題は鍵についてです。URL はグローバルに一意であるため、キーとして使用できます。ただし、仕事の都合上、各キーと値のペアのキーとしてグローバルに一意の番号を生成したいと考えています。これが Hadoop の水平方向のスケーラビリティに何らかの形で反していることはわかっています。しかし、これに対する解決策はありますか?