ウェブサイトから医薬品のリストをスクレイピングしようとしています。JSOUP を使用して Html を解析しています。
これが私のコードです:
URL url = new URL("http://www.medindia.net/drug-price/index.asp?alpha=a");
Document doc1 = Jsoup.parse(url, 0);
Elements rows = doc1.getElementsByAttributeValue("style", "padding-left:5px;border-right:1px solid #A5A5A5;");
for(Element row : rows){
String htm = row.text();
if(!(htm.equals("View Price")||htm.contains("Show Details"))) {
System.out.println(htm);
System.out.println();
}
}
これが私が得ている出力です:
PSこれは完全な出力ではありませんが、完全な出力のスクリーンショットを撮ることができなかったので、表示しました。
私は2つのことを知る必要があります:
質問 1.各医薬品名の前に余分なスペースが表示されるのはなぜですか? また、医薬品名の後に余分な改行が表示されるのはなぜですか?
質問 2.この問題を解決するにはどうすればよいですか?