0

セレンを使用してWebポータルでデータを収集しています。ここでの問題は、データがXML形式であるのに、URL拡張子が.xmlではなく、ドットネットWebサイトであるため.aspxとして表示されることです。セレンを使用できるようになりました。を使用してページソースを取得するdriver.getPageSource()

しかし、それは私にHTMLのフォーマットを与えてくれます。ここでHTMLを使用してXMLを分離することは本当に苦痛であり、JSoupなどの多くのオプションを試しましたが、解析が多すぎて実行できないようです。

セレンにブラウザを操作させる他の方法はありますか?ファイル-名前を付けて保存すると、Webページをxml形式で保存するオプションが表示されます。セレンでこれを行う方法はありますか?他に役立つAPIはありますか?ここ。

編集:ここの私のブラウザはInternetExplorerです

4

1 に答える 1

1

このように試しましたか?

String pageSource=driver.findElement(By.tagName("body")).getText();

このページを参照してくださいソースコンテンツXMLコンテンツのみを提供している場合は、ファイル操作を使用してファイルに書き込むことができます。

于 2013-03-22T12:54:14.717 に答える