巨大なソート済みテキスト ファイル (1000 万行) があります。それぞれ約10,000サイズの小さなファイルに分割したい。ただし、最終行の最初のフィールドが他のファイルの最初の行の最初のフィールドと同じであってはなりません。つまり、分割ポイントは 10k 番目の行の近くにある必要がありますが、分割前の行は後の行とは異なる最初のフィールドを持つ必要があります。
面倒な方法を考えました。別のファイルで、lineN と lineN+1 の最初のフィールドが異なる可能性のあるすべての分割位置を何らかの形で出力します。次に、10k に近い分割ポイントのみを選択するプログラムを作成します。しかし、split
分割されたファイルごとに固定行しか許可されないため、コマンドを使用できません。
問題を解決するには?