問題タブ [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - XPatherによって生成された一部のxpathでHtmlCleanerが失敗する
XPatherプラグインによって生成されたxpathをhtmlに対して評価してコンテンツを取得するためにHtmlCleaner2.1ライブラリを使用しています。ただし、HtmlCleanerがxpathの評価に失敗する場合があります。
例 http://www.megaoutdoors.co.uk/norwegen-army-shirt-zipped-roll-top-collar-278-p.asp
製品タイトルの場合、XPatherによって指定されるxpathは// body / div [11] / div [6] / div [2] / form / div [1] / h1 ですが、HtmlCleanerを使用して評価すると失敗します。
この問題をどのように克服できますか。htmlcleanerがページをクリーンアップすると、ページの構造は変わりますか?
ありがとう
Jitendra
java - HTML ドキュメントの作成に使用するライブラリは?
これらのライブラリとは逆のことができるライブラリを誰かに勧めてもらえますか?
HtmlCleaner、TagSoup、HtmlParser、HtmlUnit、jSoup、jTidy、nekoHtml、WebHarvest、または Jericho。
HTML ページを作成し、文字列コンテンツから DOM モデルを作成する必要があります。
編集:テスト目的で必要です。さまざまな場所の html ページにある可能性のあるさまざまな種類の入力/文字列があります...したがって、動的に構築する必要があります...次に、満たす必要があるさまざまな基準に基づいて html ページを処理します。
この質問をした理由を説明します。この仕事には htmlCleaner を検討してください。
問題は、方法はあるTagNode
が、方法getText()
がないsetText()
ことです....
この質問がどれほど漠然としているかについて、さらにコメントを追加してください...あなたができる最善のこと
java - Web スクレイピング Java 初心者
Java は初めてです。Web スクレイピングとデータの解析が得意になりたいです。
htmcleaner、web-harvest、htmlparser などの API がどのように機能するかを理解するのに役立つ、Web スクレイピングに関連するサイトはありますか?
私はまだ、Javadocs を見て、すべてのメソッドがどのように機能するかを理解するのに十分なほど Java に習熟しておらず、Web 上で役立つ Java コード例 (チュートリアル) を見つけることができません。
xquery - HTML ページのテキスト内の特定の単語を取得する
次の HTML ページがある場合
たとえば「こんにちは」などの特定の単語を取得し、ドキュメント内のどこにいても「ようこそ」に変更したい
何か提案はありますか?使用しているパーサーの種類に関係なく、喜んでお答えいたします。
java - HtmlCleanerを使用してタグ内にないノード要素を見つける方法は?
java - HtmlCleaner は「???」を返します 英語以外の Web サイトを解析するとき
GoogleやAppleなどの Web サイトをHtmlCleanerで解析しようとすると、すべてうまくいきます。しかし、中国語の Web サイトを解析しようとすると、テキストは "???" のようになります。
この問題の原因と解決方法を教えてください。
java - Web ページで HtmlCleaner が Iframe を処理する方法
生のhtmlを消去して有効なxml出力を生成するときに、HtmlCleanerがIframeを処理する方法を理解したいと思います。iframe を使用したページの一例は、この ebay 製品ページです。
このページの HtmlCleaner の出力を印刷すると、一部の iframe タグがそのままで、他のタグが欠落していることがわかります。欠落している iframe の 1 つは、id="d" の iframe です。製品の説明が含まれており、その本文はメイン ページに統合されています。
HTML クリーナーの XML 出力: http://pastebin.com/03f9gtdC
誰かが親切にそれを見るか、iframe を適切に処理できるより良い HTML 解析ライブラリを提案してください。そのライブラリは、XPath 評価をサポートできる必要があります。
java - HttpUrlConnection でコンテンツのタイトルを取得し、「Moved Permanently」を取得しました
これは、URL からページ タイトルを取得するために Groovy で記述したコードです。ただし、301 リダイレクトが原因であると思われる「完全に移動」した Web サイトもあります。これを回避し、HttpUrlConnection が正しい URL をたどり、正しいページ タイトルを取得できるようにするにはどうすればよいですか
たとえば、このウェブサイトでは、正しいページ タイトルではなく「Moved Permanently」を取得しました http://www.nytimes.com/2011/08/14/arts/music/jay-z-and-kanye-wests-watch-the-玉座.html
html-parsing - HtmlCleaner からテキスト内のクリーンな HTML を取得する
HTMLCleaner から取得したクリーンな HTML を見たいです。TagNode に serialize というメソッドがあるようですが、使い方がわかりません。誰かがそのサンプルコードを持っていますか?
ありがとうネイン
java - Java で兄弟タグを使用して HTML コンテンツを解析する (または) 2 つの間のコンテンツを検索するタグ
背景: 私は、HTML ファイルを調べて、Lorem Ipsum で<script>
ないタグ内のすべてのコンテンツを置き換える Java プログラムを作成しています。<style>
私はもともと、> と < の間のすべてを削除する正規表現でこれを行っていましたが、実際には非常にうまく機能しました (冒涜的なことは知っています)。 htmlで正規表現を使用しようとすることで、宇宙の神聖さを失いました。
私は HtmlCleaner を使用しようとしています。これは、他に依存関係がないため、私を惹きつけた Java ライブラリです。ただし、それを実装しようとすると、次のようなhtmlを処理できませんでした:
問題は簡単です。TagNodeVisitor が div に到達したら、そのコンテンツを適切な量のリップサムに置き換えると、span タグが削除されます。しかし、他に子がない TagNode だけにドリルダウンすると、テキストの最初のビットを見逃すことになります。
HtmlCleaner には ContentNode オブジェクトがありますが、そのオブジェクトには replace メソッドがありません。これに対処するために私が考えることができるものは、あまりにも複雑すぎるに違いないようです. HtmlCleaner またはあなたがよく知っている他の解析ライブラリを使用して、これに対処する方法に精通している人はいますか?