いくつかのXMLをTSVに解析する必要があります。XMLファイルのサイズは50GBのオーダーです。これを解析するために選択する必要がある実装については、基本的に疑わしいです。2つのオプションがあります。
- SAXParserを使用する
- Hadoopを使用する
SAXParserの実装についてはかなりのアイデアがありますが、Hadoopクラスターにアクセスできると思います。これは、Hadoopの目的であるため、ビッグデータであるため、Hadoopを使用する必要があります。
誰かがHadoopでこれを行う方法や、そのような大きなファイルの効率的なSAXParser実装、またはHadoopまたはSAXparserに何をすればよいかなど、ヒント/ドキュメントを提供できれば素晴らしいと思います。