java - Webページから広告や無駄なリンクを除いたメインコンテンツを抽出するには?

翻译自：https://stackoverflow.com/questions/9234579 2012-02-10T20:46:02.447

74 次

重複の可能性:
Web ページからテキストコンテンツを抽出する方法は?

私はたくさん検索しましたが、探しているものを見つけることができませんでした.実際には、Webページからデータを抽出したい(ニュースページの記事のような主要なデータのみ).グーグルで、オープンソースソフトウェアをたくさん見つけました. bottlepipe、Jtidyなどのようなものですが、それを行うために独自のコードを書きたいと思っています。Javaでプログラミングを行っており、Javaで実装したいと考えているため、オープンソースライブラリを使用せずにこれを行う方法はありますか?

このための良いチュートリアルを教えてもらえますか?

java - Webページから広告や無駄なリンクを除いたメインコンテンツを抽出するには?

0 に答える 0

Related

Reference