html - Perlを使用して文字列内の部分文字列を見つけてクリーンアップするにはどうすればよいですか？

Question

編集する必要のあるHTMLファイルがあります。ファイル内のいくつかの値を見つけて、フォームをクリーンアップする必要があります。

たとえば、私はhtmlファイルを持っています：

    。
    。
    診断
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"

    構成
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
    。
    。

私は見つけてきれいにする必要があります

    診断
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"
      align = "right"

私のHTMLファイルから。

それを行うためのどのような簡単で非常に速い方法ですか？

ありがとう。

score 2 · Accepted Answer

HTML::TreeBuilderPerl で HTML を解析するためのなどのモジュールを見てください。これは非常に単純な作業ではありませんが、リンクされたドキュメントにはいくつかの例があります。それを試してみて、問題がある場合は具体的な質問をすることをお勧めします。

別のアプローチは、正規表現を使用することです。これは一般的に、HTML の解析には推奨されません。正規表現を使用して任意の HTML を確実に解析することは不可能です。 ただし、予測可能な形式のファイルから 1 種類のものをすばやく削除したいだけの場合は、これが適切な選択になる可能性があります。このルートをたどる前に、問題が本当にあなたが思っているほど単純であることを確認してください.

html - Perlを使用して文字列内の部分文字列を見つけてクリーンアップするにはどうすればよいですか？

1 に答える 1

Related

Reference