セレンを使用してWebポータルでデータを収集しています。ここでの問題は、データがXML形式であるのに、URL拡張子が.xmlではなく、ドットネットWebサイトであるため.aspxとして表示されることです。セレンを使用できるようになりました。を使用してページソースを取得するdriver.getPageSource()
しかし、それは私にHTMLのフォーマットを与えてくれます。ここでHTMLを使用してXMLを分離することは本当に苦痛であり、JSoupなどの多くのオプションを試しましたが、解析が多すぎて実行できないようです。
セレンにブラウザを操作させる他の方法はありますか?ファイル-名前を付けて保存すると、Webページをxml形式で保存するオプションが表示されます。セレンでこれを行う方法はありますか?他に役立つAPIはありますか?ここ。
編集:ここの私のブラウザはInternetExplorerです