html - HTML データ抽出

Question

Web サイトにアクセスしていて、データを抽出する必要があります。より具体的には、この部分から：

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

「名前」の部分を抽出する必要があります。正規表現は最善の解決策ではないと聞いたので、この必要なデータにアクセスするための最良の方法は何かお尋ねしたいと思います。

score 2 · Accepted Answer

Html 解析ライブラリを使用して、不正な形式の Html を修正し、ドキュメントを簡単にナビゲートして要素を見つけて更新できるようにします。Java/Groovy 実装のリストへのリンクは次のとおりです。

NekoHTMLとTagSoupが人気のようですが、私はどちらも Groovy も使用していません。しかし、私は他の言語で Html パーサーを使用しました。

score 2 · Accepted Answer

NekoHTML または TagSoup (入力フィールドタグが閉じられていないという事実を処理する必要があります) を使用して Web サイトを解析した後、xpath 式を使用することをお勧めします。

//input[@type='hidden'][@value=1]/@name

groovy では、GPathの形式で適用します。

2 に答える 2