MicrosoftWord文書から作成された巨大でひどい醜いHTMLファイルに対して実行したいsedコマンドがあります。文字列のインスタンスを削除するだけです
style='text-align:center; color:blue;
exampleStyle:exampleValue'
私が変更しようとしているsedコマンドは
sed "s/ style='[^']*'//" fileA > fileB
一致するテキスト内に新しい行がある場合は常に一致しないことを除いて、これはうまく機能します。sedの修飾子、または改行を含む任意の文字の一致を強制するためにできることはありますか?
正規表現はXMLとHTMLでひどいことを理解していますが、この場合、文字列パターンは、スタイル属性が常に一重引用符で始まり、一重引用符で終わるという点で整形式です。したがって、改行の問題を解決できれば、その1つのコマンドでHTMLのサイズを50%以上削減できます。
結局、SinanÜnürのperlスクリプトが最も効果的であることが判明しました。それはほぼ瞬時に行われ、ファイルサイズが2.3MBから850kに減少しました。古き良きPerl..。