Boilerpipe を使用すると、Web ページから記事のテキストだけを抽出して、HTML の混乱をすべてクリーンアップできます。しかし、どうすれば記事の見出しを抽出できますか? ページのタイトルだけを使用する方法もありますが、不必要な単語 (「タイトル - サイト名」など) が含まれている場合があります。
もう 1 つのアイデアは、<h1>
との間のテキストを検索することですが</h1>
、さらに解決策を尋ねたいと思いました。
Boilerpipe を使用すると、Web ページから記事のテキストだけを抽出して、HTML の混乱をすべてクリーンアップできます。しかし、どうすれば記事の見出しを抽出できますか? ページのタイトルだけを使用する方法もありますが、不必要な単語 (「タイトル - サイト名」など) が含まれている場合があります。
もう 1 つのアイデアは、<h1>
との間のテキストを検索することですが</h1>
、さらに解決策を尋ねたいと思いました。