問題タブ [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - JAVA で HTML の余分なスペースを削除する
HTML クレンジングを実行する必要があります。
冗長な br タグがたくさんある HTML があるので、これまで HtmlCleaner と jTidy を試してみましたが、結果はありませんでした。
例:
私が欲しいのは、シングル<br>
バックを手に入れることだけです
行ごとに手動で解析せずにこれを達成する他の方法はありますか?
java - Java HtmlCleaner は属性の "_" (アンダースコア) を消去します
http://htmlcleaner.sourceforge.net/を使用しています。
私の問題は、入力htmlに次のものがあることです:
出力は次のとおりです。
属性から「_」を削除できないようにしたい。
htmlcleaner - htmlcleaner を使用してドキュメント全体ではなく、html コード スニペットをクリーニングする
org.htmlcleaner を使用しています
ユーザーが生成した html を追加していて、それをクリーンアップしたいと考えています。しかし、私がするとき:
cleanedHTML には body タグと html タグが追加されています。これらを追加しないフラグまたはプロパティはありますか。ここでそれらを見つけることができませんでしたhttp://htmlcleaner.sourceforge.net/parameters.php#transform
ありがとう
php - HTML と悪意のあるコードを取り除き、句読点と外国語を PHP に残す
ある人は、このスクリプト全体を 1 つのライナーに置き換えることを提案しました。
しかし、それは $_GET コマンドでエラーを出します - 不明な変数 ID
私が探しているのは、すべての HTML コードと奇妙な文字を削除し、キャリッジ リターンをスペースに置き換え、ドット カンマや感嘆符などの句読点を残す最も単純なスクリプトです。
似たような質問はたくさんありますが、この質問に正しく答えているものはないようです。これらのスクリプトは、文の句読点や外国のアラビア語のフォントやスペイン語を含むすべての文字を取り除きます。
たとえば、文字列に www.mygreatwebsite.com が含まれている場合
よりクリーンなスクリプトは、奇妙に見える wwwmygreatwebsitecom を返します。
誰かが「ねえ、これは素晴らしいウェブサイトだ! ' 感嘆符も削除します。
私が調べた同様の質問はすべて、すべての文字を削除します....
句読点と外国語の文字は、人々がフォームに貼り付けたすべてのものをクリアする 1 つの単純な正規表現コマンドを使用して IN のままにしたいと思いますが、句読点は残します。
当然、改行はスペースに置き換えられます。
助言がありますか?
java - JAVAでXpathを使用してHTMLファイルを解析する
URL のソースを読み取ってファイル (source.html) に保存できる Java コードがあり、保存されたページから XPath を使用して値を抽出したいと考えています。価格を読みたいとします -//div [@itemprop='price'] //text ()
これをさらに行うには、保存した HTML ページで直接これを行うことができますか、それともまずこれを XML ファイルに変換してから XPath を使用する必要があります。HTMLクリーナー/パーサーについて聞いたことがありますが、ここで使用する必要がありますか? 回答を求めて別の Web サイトを参照しないでください。その場合は、直接的で簡単なレッスンができる場所に私を転送してください。以下のコードを変更すると、非常に役立ちます。
java - HTMLcleaner を使用して HTML 入力をクリーンアップする
ライブラリを使用してJavaプロジェクトを作成しHTMLCleaner
、出力をXMLファイルとして保存しています。これは私が書いたコードです:
問題は、プロジェクトを実行した後、cleaned.xml
ファイルが空であることです。