0

Javaでjericho htmlパーサーを使用しています。ウェブサイトからデータを取得したい。ウェブサイトのhtmlコンテンツでは、このようなものです....

<div class="class_div">
   <div class="class_div2">All contents...</div>`
     <span class="equals">Content 1</span>
     <span class="equals">Content 2</span>
     <span class="equals">Content 3</span>
     <span class="equals">Content 4</span>
 </div>

コンテンツ 1、コンテンツ 2、コンテンツ 3、コンテンツ 4 をフェッチしたいのですが、これをフェッチするにはどうすればよいですか?

このコードを使用しています

String sourceUrlString="<website url>";
if (sourceUrlString.indexOf(':')==-1)
sourceUrlString="http:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
Element bodyContent = source.getElementByClass("equals");`
4

1 に答える 1

0

問題はどこにありますか? コードを使用すると、それぞれを取得できますElement-それらを使用すると、テキストを取得できます:

Source source = new Source(/* ... */);
List<Element> elements = source.getAllElementsByClass("equals");

for( Element element : elements )
{
    /*
     * 'element.getTextExcrator().toString()' returns the text of the element
     */
    System.out.println(element.getTextExtractor().toString());
}

出力:

コンテンツ 1
コンテンツ 2
コンテンツ 3
コンテンツ 4

于 2013-02-04T16:14:45.470 に答える