問題タブ [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3843 参照

java - jsoupを使用して許可されていないタグをエスケープする

ホワイトリストに登録されていないタグをサニタイズする(ただし削除しない)機能について、jsoupを評価しています。<b>タグのみが許可されているとすると、次の入力があります

以下を生成する必要があります。

jsoupには次の問題/質問があります。

  • document.getAllElements()<html>常に、、<head>およびを想定してい<body>ます。はい、電話することはできますdocument.body().getAllElements()が、要点は、ソースが完全なHTMLドキュメントなのか、本文だけなのかわからないということです。結果は、入ったときと同じ形と形にしたいと思っています。
  • どうすれば置き換え<script>...</script>られ&lt;script&gt;...&lt;/script&gt;ますか?角かっこをエスケープされたエンティティに置き換えたいだけで、属性などを変更したくないのですがNode.replaceWith、これはやり過ぎのように聞こえます。
  • きれいな印刷(新しい行の挿入など)を完全にオフにすることは可能ですか?

または、別のフレームワークを使用する必要がありますか?これまでhtmlcleanerを覗いてみましたが、与えられた例は、私の希望する機能がサポートされていることを示唆していません。

0 投票する
2 に答える
568 参照

javascript - JavaScriptを使用した整頓されたHTML出力

私はHTMLの大きな塊を持っています。特定のコンテナに収まるように、HTML(テキストだけでなく)をたとえば200文字でトリミングします。明らかに、この場合、一部のタグは閉じられないままになります。クリーナーを自分で作成する以外に、サーバーを使用せずにそのようなトリミングされたスニペットをクリーンアップする方法はありますか?

JavaScriptから使用できるパブリックAPIを使用したオンラインサービスは受け入れられます。

0 投票する
1 に答える
819 参照

parsing - Ant (Groovy を使用して?) に情報を http URL に投稿し、応答を解析する方法はありますか?

Groovy + HTMLCleaner を使用して Ant で HTML ページを読み取る方法を見つけました ( Ant スクリプトを使用して HTML を解析する を参照) 。 HTMLCleaner(または同様のもの)でそれを解析できます。これは可能ですか?

0 投票する
2 に答える
2215 参照

grails - groovyの属性に特定の値を持つノードのテキストを見つけるにはどうすればよいですか?

XMLSlurperを使用しています。私のコードは以下のとおりです(ただし、機能しません)。問題は、属性「id」を持たないノードにヒットすると失敗することです。これをどのように説明しますか?

失敗しないように、「id」属性のないノードを考慮する必要があります。それ、どうやったら出来るの?

0 投票する
2 に答える
1862 参照

java - HTMLCLEANER はスペイン語の文字を処理します

JavaでHTMLファイルを解析/変換するために、HtmlCleanerライブラリを使用しています。

「ÁáÉéÍíÍíÑñÓóÚúÜü」などのスペイン語の文字を処理できないようです

これまたは他のソリューションを処理するために HtmlCleaner に設定できるプロパティはありますか? これを呼び出すために使用しているコードは次のとおりです。

0 投票する
1 に答える
509 参照

html-parsing - htmlcleaner を使用した html 解析

このタイプの html を html クリーナーを使用して解析したい..

その中で、私は href ( href="/watch?v=NZiEqhrIL_k" ) 値を取得したいだけです。どうすれば達成できますか。前もって感謝します。

0 投票する
1 に答える
1382 参照

java - Java HtmlCleaner:拡張ASCII文字を処理しません

HTMLCleanerを使用して、「€」(ascii decimal 128)、「TM」(ascii decimal 153)などの文字を含むHTMLファイルをクリーンアップしています。つまり、ASCII拡張テーブルの文字です。

HTMLCleanerはこれらの文字を処理できず、文字「?」に置き換えます。(ASCII 10進数63)。

これらの文字を処理するためにHTMLCleanerで設定できるフラグはありますか?

前もって感謝します。

編集: 変数「encoding」は、ソースファイルのエンコーディングと同じように「iso-8859-1」です。

私はこれを理解しました。この線:

Shoubeは次のように置き換えられます:

ここで、「encoding」は、ソースURLの文字セットの文字列表現です。

ありがとうございました!

0 投票する
0 に答える
2041 参照

java - htmlcleaner による解析

htmlcleaner を使用して特定のクラスからアイテムを抽出できるメソッドを開発しました...

htmlcleaner を使用して、html 内の本文とそのすべての要素をどのように抽出できますか?

0 投票する
1 に答える
261 参照

java - htmlcleaner は最初の body タグと子ノードのみをスクレイピングします

私は Java htmlcleaner を使用しており、最初の body タグとそのすべての子のみをスクレイピングしようとしています。html、head、doctype タグは省略したいと思います。

nodeByXpath を見ましたが、Java ではなく ant でのみ機能するようです。Javaでこれを行う方法を知っている人はいますか?

0 投票する
1 に答える
10667 参照

php - PHPを使用してMSWord「HTML」を削除する

重複の可能性:
Word HTMLをクリーンアップするための最良の無料の方法は何ですか?
貼り付けられたMicrosoft入力をクリーンアップするPHP

クライアントがリッチテキストエディターにメモを入力できるようにしましたが、最近ckEditor 3xにアップグレードしました。これにより、デフォルトでMSワードクラス、スタイル、コメントが削除されます(ユーザーがエディターオブジェクトに貼り付ける場合)。これで、準備が整いました。

最近、5年分のメモをクリーンアップする必要がありました。そのうちのいくつかには、MSWordで生成されたHTMLが埋め込まれています。このテキストの本文をループしてクリーンアップする必要があります。

すべてのスパンタグを削除する必要はありません。Microsoftによって作成されたものとして識別されたタグのみを削除します。

HTMLCleanerを使用してみましたが、MSで生成されたHTMLが削除されません。 http://word2cleanhtml.comは私が望んでいることを正確に実行しますが、開発者は現在、公開用のAPIを提供していません(2012年7月9日現在)。

私はここ数週間、そのようなクラスを何度も探していましたが、あまり運がありません。共有したい便利なクラスを見つけた人はいますか?