java - セレンを使用してページコンテンツを保存する

Question

セレンを使用してWebポータルでデータを収集しています。ここでの問題は、データがXML形式であるのに、URL拡張子が.xmlではなく、ドットネットWebサイトであるため.aspxとして表示されることです。セレンを使用できるようになりました。を使用してページソースを取得するdriver.getPageSource()

しかし、それは私にHTMLのフォーマットを与えてくれます。ここでHTMLを使用してXMLを分離することは本当に苦痛であり、JSoupなどの多くのオプションを試しましたが、解析が多すぎて実行できないようです。

セレンにブラウザを操作させる他の方法はありますか？ファイル-名前を付けて保存すると、Webページをxml形式で保存するオプションが表示されます。セレンでこれを行う方法はありますか？他に役立つAPIはありますか？ここ。

編集：ここの私のブラウザはInternetExplorerです

score 1 · Accepted Answer

このように試しましたか？

String pageSource=driver.findElement(By.tagName("body")).getText();

このページを参照してくださいソースコンテンツXMLコンテンツのみを提供している場合は、ファイル操作を使用してファイルに書き込むことができます。

java - セレンを使用してページコンテンツを保存する

1 に答える 1

Related

Reference