重複の可能性:
Web ページからテキスト コンテンツを抽出する方法は?
私はたくさん検索しましたが、探しているものを見つけることができませんでした.実際には、Webページからデータを抽出したい(ニュースページの記事のような主要なデータのみ).グーグルで、オープンソースソフトウェアをたくさん見つけました. bottlepipe、Jtidyなどのようなものですが、それを行うために独自のコードを書きたいと思っています。Javaでプログラミングを行っており、Javaで実装したいと考えているため、オープンソースライブラリを使用せずにこれを行う方法はありますか?
このための良いチュートリアルを教えてもらえますか?