問題タブ [jtidy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - JTidy ノード処理
Web ページのデータを解析するために JTidy を使用しています。私の質問は次のとおりです。
以前に取得したノードで XPath.evalate メソッドを呼び出すことは可能ですか?
もっとよく説明します。通常、xmlPath.evaluate(pattern, document, XPathConstants.NODE)メソッド呼び出しを使用して、xpath 式に一致するノードのリストを取得します。
nodeまたは nodeListを取得したら、 xmlPath.evaluate(pattern, node , XPathConstants.NODE)に似た 、以前に取得したnodeから開始して xmlPath.evaluate を実行するにはどうすればよいですか?
java - JavaでJtidyの警告を削除する方法
私はJavaでJtidyパーサーを使用しています。
これを実行すると、「doc = new Tidy()。parseDOM(in、null);」次のような警告が表示されます。
これらの警告は、コンソールに自動的に表示されます。ただし、実行後にこれらの警告がコンソールに表示されないようにする必要があります
これを行う方法、コンソールからこれらの警告を削除する方法を教えてください。
java - Javaで画像をクリックすると特定のリンクを開く方法は?
JavaのWebページから画像を取得するためにJtidyパーサーを使用しています。
上記のコードから画像を取得しています。Javaでその画像をクリックしてリンク「www.yahoo.com」を開く方法は?
java - Javaでドキュメントオブジェクトに解析期間制限を設定する方法
私はJavaでJtidyパーサーを使用しています.Hereは私のコードです...
このステートメントDocument doc = tidy.parseDOM(in, null);
になると、ページの解析に時間がかかりすぎているため、ドキュメント オブジェクトに時間制限を設定したいと考えています。時間を設定する方法を教えてください。
java - jTidy - 頭なしのきれいな印刷、タイトルタグ
jTidy を使用して、持っている HTML スニペットをきれいに印刷しようとしています。これまでのところ、次のことを行いました。
これは機能しますが、出力には <html>、<head>、<title>、<body> タグなどの追加コンテンツが含まれます。
たとえば、入力 <ul><li>sub1</li><li>sub2<ul><li>sub21</li></ul></li></ul> の場合、次のようになります。
APIをざっと調べた後、setPrintBodyOnly
メソッド(上記で使用したもの)を見つけましたが、まだ運がありません.
ここで何が欠けていますか? グーグルを試してみましたが、これまでのところすべてのリンクが行き止まりになっています。
java - Java のタイトル テキストに関する問題
Java で Jtidy パーサーを使用して、タイトル テキストを取得しました。
上記のコードは正常に動作しています。0 番目のインデックスでタイトルを読み取り、見つからない場合は 1 番目のインデックスで、次に 2 番目のインデックスで読み取ります。ページの中央またはそれより下にあるため、このコードはそのようなページでは機能しません.このように、このような条件では、プログラムの長さが長くなります.ページ全体からタイトルを一度に読み取る他の解決策はありますか?。私を助けてください。
java - ノードを使用してWebサイトに接続する
<body>
ウェブサイトに接続し、ソースコードを取得し、ノードを使用してタグを探すプログラムを作成しようとしています。そのタグ内には、値を入力してWebサイトにストリーミングする3つの「テキストフィールド」があります。
これまで<body>
タグを見つけることができましたが、実際には無知です。
java - Java での HTML ドキュメントの整形 (「インデントのみ」) (JTidy なし)
Apache Velocity ジェネリック テンプレート エンジンから HTML ファイルを生成しています。生成された HTML は見苦しく、正しいインデントがありません。
私の場合、この方法で操作したい String に格納された HTML を持っているので、きれいに印刷されているように見えます。
私はすでに JTidy を試してみましたが、生の HTML をパイプでパイプすると、HTML ソース コードが変更されます。HTMLタグを追加または削除することがあります。
私の質問:
HTMLドキュメントにタグを追加したり削除したりせずにHTMLコードをきれいに印刷するJavaライブラリまたは何か他のものがありますか? きれいに印刷されるように、インデントのみを行います。それ以上でもそれ以下でもありません。何か案は?:-)
コードの提案、ヒント、またはヒントも大歓迎です。
よろしくお願いします
xpath - jtidy と xpath を使用してデータを抽出する方法
http://money.rediff.com/companies/20-microns-ltd/15110088から会社名と額面金額を抽出する必要があります
このタスクは xpath api を使用して実行できることに気付きました。これは html ページなので、jtidy パーサーを使用しています。
これは、抽出する必要がある額面の xpath です。
これは私のコードです
上記の正しい解決策が見つからないため、さらに案内してください
java - 不正な形式の XML/HTML 解析
複数の (約 1600 を読み取る) HTML ページを解析し、各ファイルから次のタグの内容を引き出す必要があります。
(これは実際には html textarea タグを意味します) DOMparser を使用できると思っていましたが、ファイルに含まれるエラーが多すぎるため、stackoverflow に関する別の質問から JTidy に出会い、それを使用しようとしました。 ..
しかし、どのページからでもHTMLをXHTMLに変換できないように見えるので、DOMパーサーを使用できます。
その後、正規表現を使用できると思いましたが、そのテキストをプルするために必要な特定の式を見つけることができませんでした。また、正規表現を使用して HTML を解析しないという複数の質問/回答に出くわしました...
だから本質的に私の質問は、不正なhtmlから必要なテキストを取得するために取るべき他のアプローチはありますか?