行を含むファイル (サイズが非常に大きい) があり、各行にはコンマで区切られたいくつかのフィールドがあります。
このファイルからいくつかのフィールドを抽出し、それらを新しい行にダンプする必要があります。ただし、ここでの複雑な点は、最後のフィールド (列) 自体にコンマが含まれているが、その特定のフィールドが二重引用符 "some,thing" で識別されていることです (たとえば)。
例を挙げましょう:-
the, quick, brown, fox, jumps, right, over, the little, "lazy,dog"
このファイルには、コンマで区切られたそのような行が多数あります。
その最後の列には多くのコンマがある可能性があります。
今、そこからいくつかの列を抽出する必要があります。最後の列は確かに抽出したいものです。
awk を使おうと思ったのですが、 awk は区切り文字の区切りに制限がないようです。
Python には、no を制限できる split() 関数があります。の分割、および文字列の最後のインデックスに入ります。['the', 'quick', 'brown', 'fox', 'jumps', 'right', 'over', 'the little', 'lazy,dog'].
また、最終出力から二重引用符を削除する必要があります。
大きなファイルの処理ではawkの方が速いように見えるので、awkを使用しようとしていました。しかし、そのようなことを実装することは可能ですか、それとも少し遅いように見えるループと分割のpythonicな方法を使用する必要があります。
注: 1) いいえ。の列が固定されています。
提案してください。