0

HTMLコンテンツからコンテンツのみhrefを抽出する方法を考えています。src正規表現を試しましたが、失敗しました。

これは、取得したいテキストhrefsrcコンテンツです。

<a href="http://rdmobile.fr/blog/mobile-la-pub-consomme-plus-que-les-applications-elles-memes/"><img align="left" hspace="5" width="150" height="150" src="http://rdmobile.fr/blog/wp-content/uploads/2012/03/angry-birds-150x150.jpg" class="alignleft tfe wp-post-image" alt="angry-birds" title="angry-birds" /></a>Si vous aussi vous vous étonnez de voir votre batterie fondre comme neige au soleil dès lors que jouez à Angry Birds, rassurez-vous, c’est normal. Des chercheurs de l&#8217;université de Purdue se sont intéressés aux publicités destinées majoritairement aux applications gratuites, et oui, comment les développeurs mangent-ils autrement ? Plus sérieusement, cette étude, publiée sur le [...]

このようなデータを抽出したい。

href コンテンツ : http://rdmobile.fr/blog/mobile-la-pub-consomme-plus-que-les-applications-elles-memes/ src コンテンツ : http://rdmobile.fr/blog/wp-content/アップロード/2012/03/angry-birds-150x150.jpg

誰でもこれを手伝ってもらえますか。基本的な正規表現も学びたいです。

ありがとう、イスル

4

4 に答える 4

2

JSoupのような DOM パーサーは、この種の問題に最適で、ドキュメントとの直接的な対話と CSS スタイル セレクターの使用を可能にします。

Document document = Jsoup.connect(url).get();
Elements elementsWithSrcAttributes = document.select("[src]");
Elements elementsWithHrefAttributes = document.select("[href]");

for (Element element: elementsWithSrcAttributes) {
    System.out.println("src content: " + element.attr("src"));
}

for (Element element: elementsWithHrefAttributes) {
    System.out.println("href content: " + element.attr("href"));
}
于 2013-04-11T12:45:52.737 に答える
0

XML パーサーを使用してコンテンツを解析できます。

XML データの解析を見てください

于 2013-04-11T12:32:53.530 に答える
0

そのために正規表現を使用したくありません。ただ... ただしないでください。悪いことが起こる

使いたいのはXPathです。特定の HTML ドキュメントについて、/a/@hrefXPath 式はノードのすべてのhref属性を返しますa。XML の正規表現と考えてください。

難しいのは、比較的単純な XPath ではなく、HTML ファイルから有効な DOM を取得することです。Cyber​​nekoをお勧めしますが、それが Android の要件と互換性があるかどうかはわかりません。

于 2013-04-11T12:55:02.827 に答える