複数のエントリを含むファイルがあります。各エントリは次の形式です。
"field1","field2","field3","field4","field5"
すべてのフィールドに引用符が含まれていないことが保証されていますが、,
. 問題は、field4
複数の行に分割できることです。したがって、サンプル ファイルは次のようになります。
"john","male US","done","Some sample text
across multiple lines. There
can be many lines of this","foo bar baz"
"jane","female UK","done","fields can have , in them","abc xyz"
Python を使用してフィールドを抽出したい。フィールドが複数の行に分割されていない場合、これは単純でした: Extract string from between quotes . しかし、複数行のフィールドがある場合にこれを行う簡単な方法を見つけることができないようです。
編集: 実際には 5 つのフィールドがあります。混乱があれば申し訳ありません。これを反映するために質問が編集されました。