0

Java HtmlParser(Jericho、HtmlCLeaner、...)を調べましたが、ページを取得するときにhtmlフレームタグが実際のソースコードに置き換えられる機能が見つかりませんでした。

誰かがそれを行うパーサーについて知っていますか?

答え:

Phaniが示したように、Html Scraperが必要です(パーサーではなく、クリーナー)

HtmlUnitはトリックを行うようです:http://htmlunit.sourceforge.net/frame-howto.html

4

1 に答える 1

0

ユースケースから、クリーナーよりもスクレーパーが必要です。

クリーナー-通常、汚れていて、形が悪く、その後の処理には適していません。そのようなドキュメントを深刻に消費する場合は、最初に混乱をクリーンアップし、タグ、属性、および通常のテキストに順序を付ける必要があります。

スクレーパー-プログラムでページを読み、htmlページを編集します。

http://sourceforge.net/projects/htmlscraper/

于 2012-04-12T09:43:26.240 に答える