私はかなり最近 Python に切り替えました。特定のタグやその他の文字列パターンを削除して、非常に多数の Web ページ (約 12k) (ただし、テキスト ファイルと同様に簡単に考えることができます) をクリーンアップすることに興味があります。このために、Python で re.sub(..) 関数を使用しています。
私の質問は、より多くのパターンに一致する 1 つの大きな正規表現を作成するか、より小さく単純な正規表現で関数を数回呼び出す方が (効率の観点から) 優れているかどうかです。
例として、次のようなものを使用する方が良いですか
re.sub(r"<[^<>]*>", content)
re.sub(r"some_other_pattern", content)
また
re.sub(r"<[^<>]*>|some_other_pattern",content)
もちろん、前のパターンは非常に単純であるため、ここではまとめていませんが、実際のシナリオではまとめます。
LE: この質問は、ファイルの HTML の性質とは関係ありませんが、複数の正規表現パターンを処理するときの Python の動作とは関係ありません。
ありがとう!