35

次のコマンドを使用してファイルを分割しています。50,000 行ごとに分割し、4 桁の数値サフィックスを使用する必要があります。ファイルは約 1 億 4000 万行です。

split -d -l -n 4 50000 domains.xml domains_

しかし、それを実行すると、次のエラーが発生します。

split: -n: invalid number of lines
Try `split --help' for more information.

これに対する正しいコマンドは何ですか?

4

5 に答える 5

76

GNUの主なヘルプには次のように書かれsplitているので:

Usage: /usr/gnu/bin/split [OPTION]... [INPUT [PREFIX]]
Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default
size is 1000 lines, and default PREFIX is 'x'.  With no INPUT, or when INPUT
is -, read standard input.

Mandatory arguments to long options are mandatory for short options too.
  -a, --suffix-length=N   generate suffixes of length N (default 2)
      --additional-suffix=SUFFIX  append an additional SUFFIX to file names.
  -b, --bytes=SIZE        put SIZE bytes per output file
  -C, --line-bytes=SIZE   put at most SIZE bytes of lines per output file
  -d, --numeric-suffixes[=FROM]  use numeric suffixes instead of alphabetic.
                                   FROM changes the start value (default 0).
  -e, --elide-empty-files  do not generate empty output files with '-n'
      --filter=COMMAND    write to shell COMMAND; file name is $FILE
  -l, --lines=NUMBER      put NUMBER lines per output file
  -n, --number=CHUNKS     generate CHUNKS output files.  See below
  -u, --unbuffered        immediately copy input to output with '-n r/...'
      --verbose           print a diagnostic just before each
                            output file is opened
      --help     display this help and exit
      --version  output version information and exit

オプションを少し再編成する必要があるように思えます:

split -a 4 -d -l 50000 domains.xml domains_
于 2013-02-20T07:38:49.043 に答える
7

私は使用しますawk。出力ファイルとファイル名をより細かく制御できます。それもすぐに尋ねるべきです。100 行のファイルを 20 行のブロックに分割する方法は次のとおりです。

awk 'NR%20==1 { file = FILENAME "_" sprintf("%04d", NR+19) } { print > file }' domains.xml

これにより、次のようなファイルが作成されます。

file_0020
file_0040
file_0060
file_0080
file_0100

それに応じて調整します。HTH。

于 2013-02-20T07:02:51.010 に答える