ウィキペディアのページのサブセット(たとえば100MB)を取得するにはどうすればよいですか?データセット全体をXMLとして取得できることがわかりましたが、1ギガまたは2ギガに似ています。そんなにいらない。
map-reduceアルゴリズムの実装を試してみたいと思います。
そうは言っても、100メガバイトに相当するテキストサンプルデータをどこからでも見つけることができれば、それも良いことです。たとえば、Stack Overflowデータベースが利用可能な場合は、適切なサイズになる可能性があります。私は提案を受け入れています。
編集:急流ではないものはありますか?私はそれらを働かせることができません。