0

プロジェクトでは、ウィキペディアの XML ダンプを、1 行に 1 つのドキュメントを保持するプレーン テキストのコーパス ファイルに変換する必要があります。XML ダンプをいくつかの異なるファイルに分割するためのツールをいくつか見つけましたが、これは必要な形式ではなく、何百万もの小さなファイルを管理すると、すでに遅い HDD に不要な作業が追加されるのではないかと心配しています。

これに適したプログラムの提案はありますか?

4

1 に答える 1

0

任意のストリーミング XML パーサーを使用して、ページごとにダンプを読み取り、ページ テキストから改行を取り除いて出力することができます。使用している言語を教えていただければ、より具体的な提案を提供できる場合があります。

(Perl を使用している場合、多くの人が XML::Twig モジュールを推奨しているのを見てきましたが、単純な古い XML::Parser でも問題なく実行できます。)

于 2013-01-19T11:31:37.170 に答える