問題タブ [jtidy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - saxとwebcrawlerを使用したサイトマップ
みなさん、こんにちは。これが私の最初の質問で、プログラマーではありません。
サイトマップを作成したいのですが。webcrawler(crawler.dev.java.net)を使用してWebサイトをクロールしています。取得したデータにsaxパーサーを使用する方法はありますか?
また、jtidyを使用して、ホームページのhtmlデータをxmlファイルに変換しました。
非常に多くのサックスパーサーがあり、それらの違いとどれを選択するかがわかりません。
htmlタグの属性にアクセスしたいのですが、webcrawlerでアクセスできないか、その方法がわかりません。
org.xml.saxと他のすべてのパッケージの違いは何ですか?
java - jTidy と TagSoup のドキュメント
TagSoup および jTidy ライブラリのドキュメント (可能であれば公式のドキュメント) を探しています。
このライブラリを使用して、html (html、xhtml、または html5) タグの間に異なる名前空間が混在する xml タグを含む html "tagsoup" ファイルを操作したいと考えています。
HTMLCleaner、NekoHTML、および Jericho をテストしましたが、ファイルをクリアするための最も単純な例を除けば、jTidy と TagSoup のドキュメントは見つかりません。
コンテンツの操作、タグの置換、情報の抽出などに関するドキュメントが必要です...
ありがとう
注: すべてのオプションをテストした後、StAX / Woodstoxを使用しました。
java - JTidyはCSSルールを保持します
次のようなHTMLを取得する方法を探しています。
そして、それをJTidyで実行し、パーサーの出力にCSSルールを保持します。
タグは最終出力でなくなります。
xhtml - JTidy と XHTML 1.1: 可能ですか?
HTML を XHTML 1.1 に変換する必要があります。
私はJavaプログラムでそれをやっているので、JTidyを使うことにしました。しかし、JTidy に出力を XHTML に変換するように指示すると、XHTML 1.1 ではなく、XHTML 1.0 になります。2003 年以前の Tidy と XHTML 1.1 に関する Google の投稿をいくつか見つけましたが、JTidy を使用した XHTML 1.1 のオプションを見つけることができません。
何か案は?
どうもありがとう。
java - Javaの任意のWebページからタイトルテキストを取得する方法
私はJavaを使用してWebページからタイトルテキストを取得しています。
次のようにタグ名を使用してWebページから画像を取得しました。
動作していますが、上記と同じコードを使用してWebページ(www.yahoo.com)からタイトルタグを取得したいと思います。getElementsByTagName( "title");について説明しました。しかし、それは機能していません。上記のようにjtidyパーサーを使用してそれを行う方法を教えてください。
java - XPathhtmlドキュメントからテーブルセルの値を取得する方法
私はhtmlドキュメントを持っていて、ドキュメント内のどこかがテーブルの下にあり、テーブルの行とJavaDOMオブジェクトを取得できます。値が文字列である場合、およびバイナリリソースである場合に、テーブルセルの値を抽出する方法がわかりません。
私は次のようなコードを使用しています:
とloopiongのように:
しかし、私は表に値が表示されていません。
java - 属性を引用符で囲んでJava解析用のXMLファイルをクリーンアップする方法
次のような一連のxmlファイルがあります。
標準のDOM方法を使用してxmlを解析しようとしていますが、の属性値P
が引用符で囲まれていないため、Javaが文句を言います。
JTidyを使用してクリーンアップしようとしましたが、xmlがHTMLでないため、Tidyはタグなどを認識しないというエラーをスローし<ROOT>
ます<F>
。
それで、これを行う別の方法はありますか?<F>
または、引用符のない属性のみがタグで発生するため、正規表現を使用できると思います。どちらかについて何か考えはありますか?
前もって感謝します
java - javaを使用して指定されたURLからベースURLをフェッチする方法
Javaを使用してベースURLを取得しようとしています。コードでjtidyパーサーを使用してタイトルを取得しました。jtidyを使用してタイトルを正しく取得していますが、指定されたURLからベースURLを取得していません。
入力としていくつかのURLがあります:
最初の文字列からベースURLとしてフェッチ"http://staff.unak.is/andy/GameProgramming0910/"
し、2番目の文字列からベースURLとしてフェッチし"http://www.complex.com/"
ます。
私はコードを使用しています:
取得titletext
していますが、上記のURLからベースURLを取得する方法を教えてください。
java - JavaでWebページからフェッチしながら画像サイズを設定する方法
こんにちは私はJavaでJtidyを使用してWebページから画像をフェッチしています。これは私のコードです:
正常に動作していますが、大きな画像が表示されています。高さと幅を16*16に設定したい。
私を助けてください:画像をフェッチしながらサイズを設定する方法。