0

Boilerpipe を使用すると、Web ページから記事のテキストだけを抽出して、HTML の混乱をすべてクリーンアップできます。しかし、どうすれば記事の見出しを抽出できますか? ページのタイトルだけを使用する方法もありますが、不必要な単語 (「タイトル - サイト名」など) が含まれている場合があります。

もう 1 つのアイデアは、<h1>との間のテキストを検索することですが</h1>、さらに解決策を尋ねたいと思いました。

4

1 に答える 1

0

あなたはウェブクローラーを書いていますか?難しいのは、タイトルがhtml全体のどこにあるかを知る必要があることだと思います。ほとんどの Web サイトでは、html を記述するための独自のパターンがあり、クローラーが記述される前に知っておく必要があります。

于 2016-10-21T09:33:51.917 に答える