問題タブ [htmlcleaner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
82 参照

android - name または id を持たず、クラス atrribute のみを持つ "div" を android の htmlClener で解析します

class 属性のみを持つ div 要素を持つ HTML Web ページを解析しようとしています。そこから情報を抽出する必要があります。複数の div 要素であるため、DOM をトラバースする必要があります。しかし、div要素を特定できません。

0 投票する
1 に答える
43 参照

java - javaでhtmlparserによって生成された解析済みタグノードから新しいhtmlを構築するにはどうすればよいですか?

.html を pdf に変換する Java コードを書きたいと思っています。html から pdf への変換に adobe の itext API を使用しました。ただし、入力として不正な html ファイルを指定すると、この変換は失敗します。悪いhtmlをきれいにするが、新しいhtmlを再構築できるコードを取得できないパーサー.解析されたhtmlタグノードから新しいhtmlを構築する方法を知っている人はいますか?

0 投票する
0 に答える
168 参照

java - HtmlCleaner XPath: 子ノードのないノードのコンテンツを取得する

HtmlCleaner ライブラリを使用して、html ファイルを解析し、その XPath 関数を介してデータを抽出しています。これはほとんどうまく機能しますが、ノードのテキスト コンテンツだけを取得する方法が見つかりません (子ノードのコンテンツなし)。多くの基本的な XPath ドキュメントで述べられているように、text() は子のコンテンツなしでノードのコンテンツを提供する必要がありますが、htmlcleaner の統合はこれに従っていないようです。htmlcleaners XPathでそれを行う方法はありますか?

UPADTE: ここに例があります:

私のhtmlはこのページです。 http://www.imdb.com/title/tt0499549/?ref_=nv_sr_1 ここにhtmlのスニペットがあります:

これは私の XPath です (この場合、div[7] は .txt-block div を取ります)

これは「予算: $237,000,000 (推定)」につながりますが、「$237,000,000」のみが必要であり、h4 の内容でもスパンの内容でもありません。

0 投票する
1 に答える
776 参照

java - Xpath htmlタグでテキストを取得する方法

このような。XPath を使用して img タグでテキストを取得したい