私は、数十個の html ファイルをテキスト ファイルに変換するプロジェクトに取り組んでおり、その仕事を行う置換正規表現式を作成しました。問題は、6 つすべてを連続して適用し、ディレクトリ内の多数のファイルのそれぞれに適用する方法です。正規表現を含む組織の説明を追加しましたが、それらは問題ではないことに注意してください。彼らは仕事をします(^ Jなどを翻訳した後)。問題は、ディレクトリ内の各 (HTML) ファイルに 6 つすべてをプログラムで適用する方法です。
* 1. Delete all until >General Conference<
\(.*^J\)*.*?General Conference
* 2. Delete all <p class="copyright"> and after
^.*<p class="copy\(.*^J\)*
* 3. Strip all tags
\(<.*?>\)*
* 4. Remove whitespace lines
^\s-*^J
* 5. Remove ugly numeric identifier
^\s-*[0-9].*^J
* 6. Remove amp
& -> &