問題タブ [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
142 参照

java - JAVA で HTML の余分なスペースを削除する

HTML クレンジングを実行する必要があります。

冗長な br タグがたくさんある HTML があるので、これまで HtmlCleaner と jTidy を試してみましたが、結果はありませんでした。

例:

私が欲しいのは、シングル<br>バックを手に入れることだけです

行ごとに手動で解析せずにこれを達成する他の方法はありますか?

0 投票する
0 に答える
60 参照

java - Java HtmlCleaner は属性の "_" (アンダースコア) を消去します

http://htmlcleaner.sourceforge.net/を使用しています。

私の問題は、入力htmlに次のものがあることです:

出力は次のとおりです。

属性から「_」を削除できないようにしたい。

0 投票する
1 に答える
38 参照

htmlcleaner - htmlcleaner を使用してドキュメント全体ではなく、html コード スニペットをクリーニングする

org.htmlcleaner を使用しています

ユーザーが生成した html を追加していて、それをクリーンアップしたいと考えています。しかし、私がするとき:

cleanedHTML には body タグと html タグが追加されています。これらを追加しないフラグまたはプロパティはありますか。ここでそれらを見つけることができませんでしたhttp://htmlcleaner.sourceforge.net/parameters.php#transform

ありがとう

0 投票する
2 に答える
1187 参照

php - HTML と悪意のあるコードを取り除き、句読点と外国語を PHP に残す

ある人は、このスクリプト全体を 1 つのライナーに置き換えることを提案しました。

しかし、それは $_GET コマンドでエラーを出します - 不明な変数 ID

私が探しているのは、すべての HTML コードと奇妙な文字を削除し、キャリッジ リターンをスペースに置き換え、ドット カンマや感嘆符などの句読点を残す最も単純なスクリプトです。

似たような質問はたくさんありますが、この質問に正しく答えているものはないようです。これらのスクリプトは、文の句読点や外国のアラビア語のフォントやスペイン語を含むすべての文字を取り除きます。

たとえば、文字列に www.mygreatwebsite.com が含まれている場合

よりクリーンなスクリプトは、奇妙に見える wwwmygreatwebsitecom を返します。

誰かが「ねえ、これは素晴らしいウェブサイトだ! ' 感嘆符も削除します。

私が調べた同様の質問はすべて、すべての文字を削除します....

句読点と外国語の文字は、人々がフォームに貼り付けたすべてのものをクリアする 1 つの単純な正規表現コマンドを使用して IN のままにしたいと思いますが、句読点は残します。

当然、改行はスペースに置き換えられます。

助言がありますか?

0 投票する
1 に答える
1615 参照

java - JAVAでXpathを使用してHTMLファイルを解析する

URL のソースを読み取ってファイル (source.html) に保存できる Java コードがあり、保存されたページから XPath を使用して値を抽出したいと考えています。価格を読みたいとします -//div [@itemprop='price'] //text ()

これをさらに行うには、保存した HTML ページで直接これを行うことができますか、それともまずこれを XML ファイルに変換してから XPath を使用する必要があります。HTMLクリーナー/パーサーについて聞いたことがありますが、ここで使用する必要がありますか? 回答を求めて別の Web サイトを参照しないでください。その場合は、直接的で簡単なレッスンができる場所に私を転送してください。以下のコードを変更すると、非常に役立ちます。

0 投票する
1 に答える
512 参照

java - HTMLcleaner を使用して HTML 入力をクリーンアップする

ライブラリを使用してJavaプロジェクトを作成しHTMLCleaner、出力をXMLファイルとして保存しています。これは私が書いたコードです:

問題は、プロジェクトを実行した後、cleaned.xmlファイルが空であることです。