Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
プロジェクトでは、ウィキペディアの XML ダンプを、1 行に 1 つのドキュメントを保持するプレーン テキストのコーパス ファイルに変換する必要があります。XML ダンプをいくつかの異なるファイルに分割するためのツールをいくつか見つけましたが、これは必要な形式ではなく、何百万もの小さなファイルを管理すると、すでに遅い HDD に不要な作業が追加されるのではないかと心配しています。
これに適したプログラムの提案はありますか?
任意のストリーミング XML パーサーを使用して、ページごとにダンプを読み取り、ページ テキストから改行を取り除いて出力することができます。使用している言語を教えていただければ、より具体的な提案を提供できる場合があります。
(Perl を使用している場合、多くの人が XML::Twig モジュールを推奨しているのを見てきましたが、単純な古い XML::Parser でも問題なく実行できます。)