Web クロールを実行して、多くの html および xml ページを収集しました。私の目的は、それらからすべての Rss/Atom フィードを抽出することです。多くのサイトがヘッダーのコンテンツ タイプとして単に「text/xml」を使用しているため、他の種類の xml からのフィードを識別できないことに気付きました。だから私はこのコードを書きました:
public boolean isFeed(String content){
Document doc = Jsoup.parse(content);
Elements feed = doc.getElementsByTag("feed");
Elements channel = doc.getElementsByTag("channel");
if(feed!=null){
if(!feed.isEmpty()){
return true;
}
}
if(channel!=null){
if(!channel.isEmpty()){
return true;
}
}
return false;
}
ここに欠けているものはありますか?何か問題はありますか?