巨大なタブ限定ファイル(tsvファイル)をパースしてコンマ区切り値ファイルに変換しようとしています。私が抱えている問題は、tsv ファイル内のすべてのエントリが完全ではなく、一部のエントリが不完全なままで、エントリ間に複数のタブ スペースがあることです。これをcsvファイルに変換するとき、それらの間に「na」を入れて、レコードのそのフィールドにエントリがないことを示します。
たとえば、生徒の記録のサンプルを考えてみましょう (1 タブ = 4 スペース、書式設定が不十分であることはご容赦ください)。
Name Age Department GPA
Kevin 21 Computer Science 3.4
Tom 20 3.8
Kelsey 22 Psychology (2 tab spaces here)
上記の例では、最初のレコードはフィールドのタイトルを示し、すべての行がレコードです。Tom の「Department」フィールドのエントリがなく、Kelsey の「GPA」フィールドのエントリがないことがわかります。私の出力は次のようになります。
"Name","Age","Department","GPA"
"Kevin","21","Computer Science","3.4"
"Tom","20","n.a","3.8"
"Kelsey","22","Psychology","n.a"
私の質問:
1) どうすればこの問題を解決できますか? Python、java、bash、awk など、どのスクリプトでも可能
です。したがって、結果のスクリプトはスペースを数えるべきではありません。
検索インデックス作成のためにデータをフィードすることになるため、これを完全に行うことは非常に重要です。前もって感謝します。