WordPress から Python ベースの CMS である Plone にコンテンツをインポートする必要があり、";" を使用して巨大な CSV バニラ ファイルとして posts テーブルのダンプを取得しています。区切り文字として。
問題は、 csv モジュールの標準の CSV リーダーが、行 (post_content
フィールド)内の HTML コンテンツを解析するほど賢くないことです。
たとえば、パーサーが<p> </p>
セミコロンをフィールド区切り文字として解釈するようなものに遭遇した場合、フィールドよりも多くの項目があり、間違った内容のフィールドになってしまいます。
この種の問題を解決する他のオプションはありますか? 正規表現で行を処理することは、私にはかなり怖いようです。