私は、もともと (フォーマットが不適切な) PDF から取得した一連の通話記録を持っています。問題は、テキスト エディターに配置したときに、各レコードが複数の行にまたがって表示されることです。データは、フィールドの途中で「ワードラップ」されているようです。ただし、スクリプトが誤って折り返された行を検出して修正できると思われる十分な構造があります (修正とは、スクリプトがレコードのすべてのデータを複数の行に吐き出すのではなく、1 行に配置することを意味します)。
入力例:
8/21/201
3
08:4
8
817817935300 39 Inbound ARLINGTON 0:01 3001
8/21/201
3
08:5
2
816036924529 26 Inbound WINTHROP 0:06 3001
8/21/201
3
09:3
1
814697446313 48 Inbound SHINGLEHSE 0:01 7800
これら 3 つのレコードの場合、出力は次のようになります。
8/21/2013 08:48 8178179353 39 Inbound ARLINGTON 0:01 3001
8/21/2013 08:52 8160369245 26 Inbound WINTHROP 0:06 3001
8/21/2013 09:31 8146974463 48 Inbound SHINGLEHSE 0:01 7800
私は特定のアプローチに偏っているわけではありません。awk、sed、または Perl のいずれかが適切な出発点のように思えます。私はスクリプト作成の初心者なので、タイムリーにこれを理解することはできません。
私が Excel / VBA で利用しようとしていたパターンの 1 つは、各レコードが日付スタンプで始まることでした。そのため、各レコードは、日付スタンプから始まり、次の日付スタンプの 1 行前で終わる行の「ブロック」に含まれます。ただし、私のコードはそれを処理するのに十分なほど堅牢ではありませんでした.awk / sed / Perlスクリプトが処理に適していると思われる将来の問題が発生する可能性があります.