“jtidy”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

197 参照

xml - saxとwebcrawlerを使用したサイトマップ

みなさん、こんにちは。これが私の最初の質問で、プログラマーではありません。

サイトマップを作成したいのですが。webcrawler（crawler.dev.java.net）を使用してWebサイトをクロールしています。取得したデータにsaxパーサーを使用する方法はありますか？

また、jtidyを使用して、ホームページのhtmlデータをxmlファイルに変換しました。

非常に多くのサックスパーサーがあり、それらの違いとどれを選択するかがわかりません。

htmlタグの属性にアクセスしたいのですが、webcrawlerでアクセスできないか、その方法がわかりません。

org.xml.saxと他のすべてのパッケージの違いは何ですか？

2010-09-19T18:16:55.113

0 投票する

1 に答える

4601 参照

java - jTidy と TagSoup のドキュメント

TagSoup および jTidy ライブラリのドキュメント (可能であれば公式のドキュメント) を探しています。

このライブラリを使用して、html (html、xhtml、または html5) タグの間に異なる名前空間が混在する xml タグを含む html "tagsoup" ファイルを操作したいと考えています。

HTMLCleaner、NekoHTML、および Jericho をテストしましたが、ファイルをクリアするための最も単純な例を除けば、jTidy と TagSoup のドキュメントは見つかりません。

コンテンツの操作、タグの置換、情報の抽出などに関するドキュメントが必要です...

ありがとう

注: すべてのオプションをテストした後、StAX / Woodstoxを使用しました。

java jtidy tag-soup jericho-html-parser

2010-12-15T16:49:58.373

0 投票する

2 に答える

396 参照

java - JTidyはCSSルールを保持します

次のようなHTMLを取得する方法を探しています。

そして、それをJTidyで実行し、パーサーの出力にCSSルールを保持します。

タグは最終出力でなくなります。

java html css jtidy

2011-03-31T00:00:36.083

0 投票する

1 に答える

375 参照

xhtml - JTidy と XHTML 1.1: 可能ですか?

HTML を XHTML 1.1 に変換する必要があります。

私はJavaプログラムでそれをやっているので、JTidyを使うことにしました。しかし、JTidy に出力を XHTML に変換するように指示すると、XHTML 1.1 ではなく、XHTML 1.0 になります。2003 年以前の Tidy と XHTML 1.1 に関する Google の投稿をいくつか見つけましたが、JTidy を使用した XHTML 1.1 のオプションを見つけることができません。

何か案は？

どうもありがとう。

xhtml doctype tidy jtidy xhtml-1.1

2011-04-13T17:55:09.683

0 投票する

4 に答える

2651 参照

java - Javaの任意のWebページからタイトルテキストを取得する方法

私はJavaを使用してWebページからタイトルテキストを取得しています。

次のようにタグ名を使用してWebページから画像を取得しました。

動作していますが、上記と同じコードを使用してWebページ（www.yahoo.com）からタイトルタグを取得したいと思います。getElementsByTagName（ "title"）;について説明しました。しかし、それは機能していません。上記のようにjtidyパーサーを使用してそれを行う方法を教えてください。

java jtidy

2011-05-07T06:15:19.800

0 投票する

2 に答える

7517 参照

java - XPathhtmlドキュメントからテーブルセルの値を取得する方法

私はhtmlドキュメントを持っていて、ドキュメント内のどこかがテーブルの下にあり、テーブルの行とJavaDOMオブジェクトを取得できます。値が文字列である場合、およびバイナリリソースである場合に、テーブルセルの値を抽出する方法がわかりません。

私は次のようなコードを使用しています：

とloopiongのように：

しかし、私は表に値が表示されていません。

java html xpath jtidy

2011-05-09T00:31:19.173

0 投票する

1 に答える

2755 参照

java - 属性を引用符で囲んでJava解析用のXMLファイルをクリーンアップする方法

次のような一連のxmlファイルがあります。

標準のDOM方法を使用してxmlを解析しようとしていますが、の属性値Pが引用符で囲まれていないため、Javaが文句を言います。

JTidyを使用してクリーンアップしようとしましたが、xmlがHTMLでないため、Tidyはタグなどを認識しないというエラーをスローし<ROOT>ます<F>。

それで、これを行う別の方法はありますか？<F>または、引用符のない属性のみがタグで発生するため、正規表現を使用できると思います。どちらかについて何か考えはありますか？

前もって感謝します

java xml regex xml-parsing jtidy

2011-05-13T07:19:04.060

0 投票する

1 に答える

344 参照

java - 読書の問題 tag from web page in java</h1> <div id="body"><p>I am using jtidy parser to parse the web page. It is working, sort of:</p> <pre><code>InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/art</a> </h3> <div class="s-post-summary--content-excerpt"> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/java" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">java</a><a href="/tags/jtidy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">jtidy</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2011-05-14T07:10:19.320</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票する</span> </div> <div class="s-post-summary--stats-item " title="2 answers"> <span class="s-post-summary--stats-item-number">2</span> <span class="s-post-summary--stats-item-unit">に答える</span> </div> <div class="s-post-summary--stats-item " title="27438 views"> <span class="s-post-summary--stats-item-number">27438</span> <span class="s-post-summary--stats-item-unit">参照</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/6013628" class="s-link">java - javaを使用して指定されたURLからベースURLをフェッチする方法</a> </h3> <div class="s-post-summary--content-excerpt"> <p>Javaを使用してベースURLを取得しようとしています。コードでjtidyパーサーを使用してタイトルを取得しました。jtidyを使用してタイトルを正しく取得していますが、指定されたURLからベースURLを取得していません。</p> <p>入力としていくつかのURLがあります：</p> <p>最初の文字列からベースURLとしてフェッチ<code>"http://staff.unak.is/andy/GameProgramming0910/"</code>し、2番目の文字列からベースURLとしてフェッチし<code>"http://www.complex.com/"</code>ます。</p> <p>私はコードを使用しています：</p> <p>取得<code>titletext</code>していますが、上記のURLからベースURLを取得する方法を教えてください。</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/java" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">java</a><a href="/tags/jtidy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">jtidy</a><a href="/tags/base-url" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">base-url</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2011-05-16T05:49:21.477</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票する</span> </div> <div class="s-post-summary--stats-item " title="2 answers"> <span class="s-post-summary--stats-item-number">2</span> <span class="s-post-summary--stats-item-unit">に答える</span> </div> <div class="s-post-summary--stats-item " title="266 views"> <span class="s-post-summary--stats-item-number">266</span> <span class="s-post-summary--stats-item-unit">参照</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/6135405" class="s-link">java - JavaでWebページからフェッチしながら画像サイズを設定する方法</a> </h3> <div class="s-post-summary--content-excerpt"> <p>こんにちは私はJavaでJtidyを使用してWebページから画像をフェッチしています。これは私のコードです：</p> <p>正常に動作していますが、大きな画像が表示されています。高さと幅を16*16に設定したい。</p> <p>私を助けてください：画像をフェッチしながらサイズを設定する方法。</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/java" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">java</a><a href="/tags/jtidy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">jtidy</a> </div> <div class="s-user-card s-user-card__minimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2011-05-26T07:57:05.603</span></time> </div> </div> </div> </div> </div> <br class="cbt"> <div class="s-pagination site1 themed pager float-left"> <a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=1" rel="" title="Go to page 2">1</a><a class="s-pagination--item js-pagination-item is-selected" href="/tags/jtidy?p=2" rel="" title="Go to page 2">2</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=3" rel="" title="Go to page 2">3</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=4" rel="" title="Go to page 2">4</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=5" rel="" title="Go to page 2">5</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=6" rel="" title="Go to page 2">6</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=7" rel="" title="Go to page 2">7</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=8" rel="" title="Go to page 2">8</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=9" rel="" title="Go to page 2">9</a><a class="s-pagination--item js-pagination-item " href="/tags/jtidy?p=10" rel="" title="Go to page 2">10</a></div> </div> <div id="sidebar" class="show-votes" role="complementary" aria-label="sidebar"> <div class="module js-gps-related-tags" id="related-tags"> <h4 id="h-related-tags">Reference</h4> <div data-name="javascript"> <a href="https://php.github.net.cn" class="post-tag no-tag-menu js-gps-track" >php</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">1429865</span> </span> </div> <div data-name="javascript"> <a href="https://c-cpp.com" class="post-tag no-tag-menu js-gps-track" >c/c++</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">756500</span> </span> </div> <div data-name="javascript"> <a href="https://nginx.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">nginx</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49975</span> </span> </div> <div data-name="javascript"> <a href="https://mongodb.net.cn" class="post-tag no-tag-menu js-gps-track" >mongodb</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">159057</span> </span> </div> <div data-name="javascript"> <a href="https://mybatis.net.cn" class="post-tag no-tag-menu js-gps-track" >mybatis</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">3233</span> </span> </div> <div data-name="javascript"> <a href="https://anaconda.org.cn" class="post-tag no-tag-menu js-gps-track" >anaconda</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">13410</span> </span> </div> <div data-name="javascript"> <a href="https://pycharm.net.cn" class="post-tag no-tag-menu js-gps-track" >pycharm</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">14671</span> </span> </div> <div data-name="javascript"> <a href="https://python.github.net.cn" class="post-tag no-tag-menu js-gps-track" >python</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">1902243</span> </span> </div> <div data-name="javascript"> <a href="https://vscode.github.net.cn" class="post-tag no-tag-menu js-gps-track" >vscode</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">56040</span> </span> </div> <div data-name="javascript"> <a href="https://dockerdocs.cn" class="post-tag no-tag-menu js-gps-track" >docker</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">110988</span> </span> </div> <div data-name="javascript"> <a href="https://github.net.cn" class="post-tag no-tag-menu js-gps-track" >github</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49000</span> </span> </div> <div data-name="javascript"> <a href="https://flask.github.net.cn" class="post-tag no-tag-menu js-gps-track" >flask</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49129</span> </span> </div> <div data-name="javascript"> <a href="https://ffmpeg.github.net.cn" class="post-tag no-tag-menu js-gps-track" >ffmpeg</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">24037</span> </span> </div> <div data-name="javascript"> <a href="https://jmeter.net" class="post-tag no-tag-menu js-gps-track" >jmeter</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">16910</span> </span> </div> <div data-name="javascript"> <a href="https://matplotlib.net" class="post-tag no-tag-menu js-gps-track" >matplotlib</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">63493</span> </span> </div> <div data-name="javascript"> <a href="https://getbootstrap.net" class="post-tag no-tag-menu js-gps-track" >bootstrap</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">54641</span> </span> </div> </div> </div> </div> </div> <footer id="footer" class="site-footer js-footer" role="contentinfo"> <div class="site-footer--container"> <div class="site-footer--logo"> <a href="https://stackoverflow.com"><svg aria-hidden="true" class="native svg-icon iconLogoGlyphMd" width="32" height="37" viewBox="0 0 32 37"><path d="M26 33v-9h4v13H0V24h4v9h22Z" fill="#BCBBBB"/><path d="m21.5 0-2.7 2 9.9 13.3 2.7-2L21.5 0ZM26 18.4 13.3 7.8l2.1-2.5 12.7 10.6-2.1 2.5ZM9.1 15.2l15 7 1.4-3-15-7-1.4 3Zm14 10.79.68-2.95-16.1-3.35L7 23l16.1 2.99ZM23 30H7v-3h16v3Z" fill="#F48024"/></svg></a> </div> <nav class="site-footer--nav"> <div class="site-footer--col"> <h5 class="-title"><a href="https://stackoverflow.jp" class="js-gps-track" data-gps-track="footer.click({ location: 3, link: 15})">Stack Overflow 日本語サイト</a></h5> <p>CC BY-SA知識共有ライセンス契約に従う。</p> </div> </nav> </div> </footer> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?709ff2ad9744e86b5b0eee677fc13ede"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script>  <script async src="https://www.googletagmanager.com/gtag/js?id=G-1MW5BV8G8E"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-1MW5BV8G8E'); </script> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-6117966252207595" crossorigin="anonymous"></script> </body> </html>

問題タブ [jtidy]