http://xxx.xxx.com/xxxxxblogから RSS フィードを取得するアプリを開発しようとしています。フィードを取得するための HTML 解析を手伝ってくれる人はいますか?
3 に答える
JSoupを試してHTMLを解析できます。
使い方はとても簡単で、十分に文書化されているので、ページの解析にそれほど問題はないはずです。
あなたはこのページからそれを行う方法を見つけることができます
http://jsoup.org/cookbook/extracting-data/selector-syntax
異なるhtmlタグを使用して、そのタグ間のデータを解析します。
してみてください
このコード例を使用して、実際に名前空間拡張を処理できる RSS リーダーを作成します。
このコードの基礎となるライブラリは、このhttps://github.com/thebuzzmedia/simple-java-xml-parserです。
Androidでも非常にうまく機能します。
この Web ページのフィードは、<dc:subject>
タグで明確に区切られているようです。フィードを取得するだけでよいため、ヘッダーもキャプチャする正規表現 ( のようなもの<dc:subject>(.*?)</dc:subject>
) を使用してフィード境界を取得するのが最短の方法である可能性があります。式を検出したら、行ごとに読み取ります。これがフィードの開始です。おそらくそれは哲学的に最も正しい方法ではなく、代わりにすべての HTML を解析する必要がありますが、なぜ不要なコードを実行する必要があるのでしょうか ...
Java 組み込みパーサーも不足していません。Java の組み込み HTML パーサーから始めて、場合によってはより適切なさまざまな代替ライブラリーに進み、XML パーサー (XPath) の使用を提案する人もいます。ここでは、さまざまなソリューションについて説明します。