0

HTMLのサニタイズにジェリコを使用していますが、うまく機能します。1つの状況を除いて、私には理解できません。スクリプトとスクリプトの内容を完全に削除したい。現在、スクリプト タグを削除していますが、実際のスクリプト コンテンツは保持されています。

そのため、現在、Source オブジェクトを作成し、fullSequentialParse を実行しています。次に、OutputDocument を作成し、各タグをループします。

「スクリプト」タグに到達したら、全体を「」に置き換えたいだけです。

何か案は?

ティア

4

2 に答える 2

1

Jericho には詳しくありませんが、DOM ツリーと非常によく似たツリーで機能するため、タグだけでなくscript 要素を削除できます。(ただし、巨大な HTML がある場合、これは最適ではない可能性があります)。

そうでない場合は、SAX 方式を使用できます。開始タグを覚えておいてくださいscript。終了タグに到達したら、その間のすべてを削除できます。

于 2015-10-02T13:19:39.687 に答える
-1

シンプルで効率的な方法 -

  1. トラバーサルを実行して、スクリプト タグに 1 つずつ到達します。
  2. すべてのスクリプト タグに対して、次の終了タグを取得できます (for ループを使用)。
  3. 開始タグと終了タグの位置(整数値)を取得します。
  4. これらの行をソース オブジェクトから削除します。
  5. ソース ファイルを置き換えます。(新しいファイルを作成して同じフォルダに保存すると、上書きされます)

A2A :)

于 2015-11-29T17:42:22.097 に答える