java - Web ページ (Java) からテキストを取得するにはどうすればよいですか?

Question

複数の Web ソースから情報を集約する単純な J2SE アプリケーションを作成する予定です。

最も難しい部分は、RSS や Atom フィードとして利用できない場合、Web ページから意味のある情報を抽出することだと思います。たとえば、stackoverflow から質問のリストを抽出したい場合がありますが、その巨大なタグクラウドやナビゲーションバーは絶対に必要ありません。

どのようなテクニック/ライブラリをアドバイスしますか?

アップデート/備考

約 5MB の HTML を 10 分以内に解析できる限り、速度は問題ではありません。
とてもシンプルなはずです。

score 3 · Accepted Answer

HTMLParser（http://htmlparser.sourceforge.net/）をURL＃getInputStream（）と組み合わせて使用して、インターネットでホストされているHTMLページのコンテンツを解析できます。

score 2 · Accepted Answer

httpunitがどのようにそれを行うかを見ることができます。彼らはいくつかのまともなhtmlパーサーを使用しています。1つはnekohtmlです。データを取得する限り、jdk（httpurlconnection）に組み込まれているものを使用するか、apacheの

http://hc.apache.org/httpclient-3.x/

score 2 · Accepted Answer

構造的または意味的なマークアップを利用したい場合は、HTML を XML に変換し、XQuery を使用して標準形式で情報を抽出することを検討してください。以下に抜粋した典型的なコードについては、この IBM developerWorks の記事を参照してください (HTML を出力していますが、もちろん必須ではありません)。

<table>
{
  for $d in //td[contains(a/small/text(), "New York, NY")]
  for $row in $d/parent::tr/parent::table/tr
  where contains($d/a/small/text()[1], "New York")
  return <tr><td>{data($row/td[1])}</td> 
           <td>{data($row/td[2])}</td>              
           <td>{$row/td[3]//img}</td> </tr>
}
</table>

score 0 · Accepted Answer

昔ながらの方法でそれを行いたい場合は、ソケットを使用してWebサーバーのポートに接続してから、次のデータを送信する必要があります。

GET /file.html HTTP/1.0
Host: site.com
<ENTER>
<ENTER>

次に、を使用しSocket#getInputStream、次にBufferedReaderを使用してデータを読み取り、好きなものを使用してデータを解析します。

score 0 · Accepted Answer

つまり、ページ全体を解析して必要なものを選択するか（速度を上げるために、SAXParserを確認することをお勧めします）、すべてのHTMLをトリミングする正規表現を介してHTMLを実行します...すべてをDOMに変換することもできます。しかし、それはあなたがまともなスループットを持っているために撮影している場合は特に高価になるでしょう。

score 0 · Accepted Answer

スクレイピングをスクリーニングしたいようです。ソースサイトごとにアダプタ/プラグインを介して（各サイトの形式が異なるため）、htmlソースを解析してテキストを抽出できるフレームワークを作成することをお勧めします。JavaのioAPIを使用してURLに接続し、InputStreamsを介してデータをストリーミングする可能性があります。

score 0 · Accepted Answer

nekohtmlを使用して HTML ドキュメントを解析できます。DOM ドキュメントを取得します。XPATH を使用して、必要なデータを取得できます。

score 0 · Accepted Answer

これをチェックしてください http://www.alchemyapi.com/api/demo.html

彼らはかなり良い結果を返し、ほとんどのプラットフォーム用の SDK を持っています。テキスト抽出だけでなく、キーワード分析なども行っています。

score 0 · Accepted Answer

「Web ソース」が (RSS のような構造化された XML 形式ではなく) HTML を使用する通常の Web サイトである場合は、HTMLUnitを参照することをお勧めします。

このライブラリは、テストを目的としていますが、実際には汎用の「Java ブラウザ」です。Javascript をサポートするために、Apache httpclient、Nekohtml パーサー、Rhino 上に構築されています。Web ページに非常に優れた API を提供し、Web サイトを簡単にトラバースできるようにします。

score 0 · Accepted Answer

RSS/Atom フィードを利用することを検討しましたか? 通常は消費可能な形式でコンテンツを利用できるのに、なぜコンテンツをスクレイピングするのでしょうか? 考えられるほとんどすべての言語で RSS を利用できるライブラリがあり、コンテンツをスクレイピングしようとするよりも、ページのマークアップへの依存度がはるかに低くなります。

絶対にコンテンツをスクレイピングしなければならない場合は、マークアップでマイクロフォーマットを探してください。ほとんどのブログ (特に WordPress ベースのブログ) にはデフォルトでこれがあります。また、Web ページからマイクロフォーマットを見つけて抽出するために使用できるライブラリーとパーサーもあります。

最後に、 Yahoo Pipesなどの集約サービス/アプリケーションを使用すると、車輪を再発明することなく、この作業を実行できる場合があります。

java - Web ページ (Java) からテキストを取得するにはどうすればよいですか?

10 に答える 10

Related

Reference