問題タブ [jtidy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dom - JTidy から返された DOM を解析して特定の HTML 要素を見つける
私はしばらくこのコードをいじっていましたが、何が間違っているのかわかりません。
URL を取得し、それを JTidy でクリーンアップします。形式が整っていないためです。次に、特定の非表示の入力フィールド ( input
type="hidden" name="mytarget" value="313"
) を見つける必要があるため、name 属性の値を知っています。
クリーンアップ時に HTML ページ全体を印刷するので、探しているものとドキュメントの内容を比較できます。
私の問題は、私が持っている場所について、これを見つけるための最良の方法を決定しようとしていSystem.out << it
ます。
java - HTML5出力をきれいにフォーマットする
HTML5出力を自動的にインデントしようとしています。私が使用しようとしたツールはJTidyでしたが、問題はHTML5要素をサポートしておらず、たとえばHTML5が本文でそれらを使用しているのに対し、すべてとヘッダーに移動することです。
HTMLはXMLではないため、インデントに一般的なJavaXMLツールを使用することはできません。
java - JTIdyでHTMLドキュメントを整形式にするにはどうすればよいですか?
JTidyv。r938を使用しています。このコードを使用してページをクリーンアップしようとしています…</p>
しかし、このURLを解析すると--http://www.chicagoreader.com/chicago/EventSearch?narrowByDate = This + Week&eventCategory = 93922&keywords =&page = 1、物事はクリーンアップされていません。たとえば、ページ上のMETAタグは、次のようになります。
として残る
「</META>」タグを付けたり、「<META http-equiv = "Content-Type" content = "text/html;」と表示したりする代わりに charset =UTF-8"/>"。結果のJTidyorg.w3c.dom.Documentを文字列として出力することでこれを確認します。
JTidyが本当にページをクリーンアップするために、つまり、ページを整形式にするために何ができますか?他にもツールがあることはわかっていますが、この質問は特にJTIdyの使用に関連しています。
java - Java で Html5 ページをクリーンアップ: 可能ですか?
Java プロジェクト内の Html5 ページをクリーンアップする必要があります。
そのため、Java ライブラリ、または Linux と Windows の両方で動作するコマンド ライン プログラムが必要です。
JTidy がうまく動作しません (テストしました)。HTML5 の HTML Tidy は C++ ライブラリであり、そのコマンド ライン バージョンは Linux でのみ動作します。
Validator.nu HTML パーサーもクリーンアップするかどうか知っていますか (それに関する情報は見つかりませんでした)。
何かアイデアはありますか?
ありがとう
java - jTidyhtmlからxhtmlは空のファイルを返します
htmlファイルからxhtmlファイルを作成しようとしていますが、エラーが発生します。変換中に次のエラーが発生します。
1行目1列目-警告:欠落している「title」要素を挿入しています
InputStream:ドキュメントコンテンツはHTML2.0のように見えます
警告1、エラーは見つかりませんでした!
私のコードは次のとおりです。
最後に私は空のファイルを受け取ります。私は何が間違っているのですか?
よろしくお願いいたします。Zoli
java - ソースを整理せずにHTMLパーサー
私のマシンには数百の古いhtmlファイルがあり、それらを解析してデータを抽出しようとしています。Jsoup、Tagsoup、HTMLcleaner、JTidyなどのさまざまなJavaパーサーを試しました。ファイル内のhtmlコードの方法により、XPATHをサポートするパーサーしか使用できず、Jsoupを試しましたが、同等のcssセレクターが見つかりませんでした。
とにかく、私の問題は、私が試したパーサーが何であれ、実際のコンテンツをクリーンアップし、'(アポストロフィ)のようなものを奇妙な文字に変換することです。
特別な文字を整理して置き換えることなく、Javaパーサーを使用してコンテンツを解析することは可能ですか?
java - javaでw3c Tidyインターフェースをインポートするnetbeansでデバッガーを使用する方法
JTidy を使用していくつかの html を消去するコードにバグがあります。不正な形式の html が見つかったら、スキップする必要があります。しかし、プログラムが不正な html で停止することがあるので、自分のコードで何が起こっているのかを確認したいと考えています。しかし、netbeans でデバッガーを実行できないようです。デバッガーはこのDebugger stopped on uncompilable source code.
行で停止しましimport org.w3c.tidy.Tidy;
た プログラムを実行する方法は、コマンドプロンプトで次java -cp jtidy-r938.jar;. HtmlCleanerTest http://yahoo.com
のように表示されます。
java - GUIでのJtidyエラー/警告メッセージの表示JTextArea
私はjtidyを使用してURLから取得したソースコードからhtmlをクリーンアップするプログラムを書いています。GUIのJTextAreaにエラーと警告を表示したい。警告を印刷からstdoutからJTextAreaに「再ルーティング」するにはどうすればよいですか?Jtidy APIを調べましたが、必要なことを実行するものが見つかりません。誰かが私がこれを行う方法を知っていますか、それが可能かどうかさえわかりますか?
//jtidyオプションのテスト
jtidy - JTidyが属性値のアポストロフィをエンティティに変換するのを防ぐことはできますか
私の入力HTMLには、次のような行があります。
JTidyが変換する
そのエンティティの変換を抑制する方法はありますか?二重引用符が変換されないようにするためのconfigメソッド(setQuoteMarks())があるようですが、アポストロフィについては同様ではありません。