4

Web サイトにアクセスしていて、データを抽出する必要があります。より具体的には、この部分から:

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

「名前」の部分を抽出する必要があります。正規表現は最善の解決策ではないと聞いたので、この必要なデータにアクセスするための最良の方法は何かお尋ねしたいと思います。

4

2 に答える 2

2

Html 解析ライブラリを使用して、不正な形式の Html を修正し、ドキュメントを簡単にナビゲートして要素を見つけて更新できるようにします。Java/Groovy 実装のリストへのリンクは次のとおりです。

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

NekoHTMLTagSoupが人気のようですが、私はどちらも Groovy も使用していません。しかし、私は他の言語で Html パーサーを使用しました。

于 2010-09-19T03:14:11.570 に答える
2

NekoHTML または TagSoup (入力フィールド タグが閉じられていないという事実を処理する必要があります) を使用して Web サイトを解析した後、xpath 式を使用することをお勧めします。

//input[@type='hidden'][@value=1]/@name

groovy では、GPathの形式で適用します。

于 2010-10-04T03:49:13.970 に答える