問題タブ [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - HTMLCleaner を使用して Java で HTML を解析します。属性内の「<」文字を認識するにはどうすればよいですか?
かなり悪いhtmlコードを解析しています。一部の要素で属性に「<」が含まれていることに気付くまで、私はうまくいきました。
元:
次のようになります
これはブラウザーで正常にレンダリングされますが、HTML クリーナーは新しいタグを開始しようとしていると認識します。新しいタグを開始する前に「">」を追加しますが、これは望ましくありません。
これを修正する最善の方法は何ですか? HTMLCleaner に、これを管理するために構成できるプロパティがあるかどうかはわかりません。ない場合、HTML データを前処理してこれらの文字を修正するにはどうすればよいですか?
編集:固定例
編集: htmlcleaner に入る前に、replaceAll() を正規表現で適用できると考えています。たぶん ="[^"]*" のようなもので、「<」が含まれているかどうかを検索し、含まれている場合は、エスケープされた html アンパサンドに置き換えます。
java - 適切な形式で PDF ファイルを生成する
私が使用するために、空飛ぶ円盤ライブラリを使用して PDF ファイルを作成しました。これは古い HTML だったので、HTMLCleaner ライブラリを使用して XHTML を削除しました。
この後、XML を文字列としてシリアル化し、それをフライングソーサーの iText モジュールに渡してレンダリングし、続いて PDF を作成します。
この PDF に配置しOutputStream
ます。応答がコミットされた後、それを保存するか開くかを尋ねるダイアログが表示されます。ただし、PDF ファイルとして保存されません。右クリックして、Adobe または任意の PDF リーダーで開く必要があります。
PDFリーダーに表示するにはどうすればよいですか。そして、ファイルを .pdf ファイルとして保存します。この問題を処理するための効果的で使いやすい方法は何でしょうか? いつものように助けていただければ幸いです!
java - HTTP 応答コード 403 を取得する HtmlCleaner の問題を解決する
Web サイトからデータを取得するために html クリーナーを使用していますが、このエラーが発生し続けます。
サーバーが HTTP 応答コードを返しました: URL の 403: http://www.groupon.com/browse/chicago?z=skip
以前に同じコードを使用したことがあり、完全に機能しているため、何が間違っているのかわかりません。誰か私を助けてください。
コードは以下のとおりです。
java - HtmlCleaner で html をきれいにする
電話に保存されている html ファイルがあり、HtmlCleaner でクリーンアップして出力結果を確認したいと考えています。これが私のコードです:
これは何もしません。携帯電話のどこかに .xml またはクリーンアップされた .html ファイルを表示したいです。
これは htmlToClean 変数です:
java - HtmlCleaner と XPath で html を解析しようとしています
特定のWebサイト(これはWebサイトです)からテーブルデータを取得しようとしていますが、特定のノードを取得しようとして試しています。これが私の試みです:
これは機能しません。アプリがクラッシュし、これが logcat です。