java - HTML から記事の見出しを抽出する (Boilerpipe を使用)

Question

Boilerpipe を使用すると、Web ページから記事のテキストだけを抽出して、HTML の混乱をすべてクリーンアップできます。しかし、どうすれば記事の見出しを抽出できますか? ページのタイトルだけを使用する方法もありますが、不必要な単語 (「タイトル - サイト名」など) が含まれている場合があります。

もう 1 つのアイデアは、<h1>との間のテキストを検索することですが</h1>、さらに解決策を尋ねたいと思いました。

score 0 · Accepted Answer

あなたはウェブクローラーを書いていますか？難しいのは、タイトルがhtml全体のどこにあるかを知る必要があることだと思います。ほとんどの Web サイトでは、html を記述するための独自のパターンがあり、クローラーが記述される前に知っておく必要があります。

java - HTML から記事の見出しを抽出する (Boilerpipe を使用)

1 に答える 1

Related

Reference