次のようなカンマ区切りファイル (csv) があるとします。
"name of movie","starring","director","release year"
"dark knight rises","christian bale, anna hathaway","christopher nolan","2012"
"the dark knight","christian bale, heath ledger","christopher nolan","2008"
"The "day" when earth stood still","Michael Rennie,the 'strong' man","robert wise","1951"
"the 'gladiator'","russel "the awesome" crowe","ridley scott","2000"
上記からわかるように、4 行目と 5 行目では、引用符内に引用符があります。出力は次のようになります。
"name of movie","starring","director","release year"
"dark knight rises","christian bale, anna hathaway","christopher nolan","2012"
"the dark knight","christian bale, heath ledger","christopher nolan","2008"
"The day when earth stood still","Michael Rennie,the strong man","robert wise","1951"
"the gladiator","russel the awesome crowe","ridley scott","2000"
csv ファイルでこのような引用符内で発生するそのような引用符 (一重引用符と二重引用符の両方) を取り除く方法。パーサーはそれが引用符で囲まれていることを識別し、それを 1 つのフィールドと見なすため、1 つのフィールド内のコンマは問題ないことに注意してください。これは、csv ファイルを配置して、複数のパーサーにフィードして任意の形式に変換できるようにする前処理ステップにすぎません。Bash、awk、python はすべて動作します。perlはやめてください、私はその言語にうんざりしています:D よろしくお願いします!