java - インライン CSS で HTML 記事テキストを抽出する

Question

クロールされた HTML Web ページからテキストを抽出したいと考えています。私はまさにそれを行うために、優れたオープンソースのBoilerpipeライブラリを使用しています。ただし、Boilerpipe を使用すると、生のテキストしか取得できません。生のテキストに加えて、すべての css スタイリング情報をインライン化して、元のソースの書式設定情報を含むテキストをキャプチャする必要があります。

Boilerpipe または他の Java ライブラリ、できればオープンソースでこれを行う方法はありますか?

score 1 · Accepted Answer

まず、私は Boilerpipe を使用したことがない、または今まで聞いたことさえないと言っておかなければなりません。

しかし、Web サイトと javadocs を見ると、スタイリングを使用してテキストを抽出するために使用することはできないと思います。基本的な概念上の問題は、そのスタイリングがどのように表現されるか、またはどのように表現されるかです。たとえば、BoilerpipeExtractorインターフェイスには 4 つgetTextのメソッドがあり、これらの各メソッドは抽出されたテキストを文字列として返します。文字列でスタイリングをどのように表現しますか? ある種のマークアップを埋め込む必要がありますが...

マークアップの種類と
これを、メソッドが「マークアップ付きのテキスト」ではなく「テキスト」を返すというインターフェースの説明とどのように調和させますか。

したがって、私の評価では、Boilerpipe を使用してスタイリングを使用してテキストを抽出することは、まったく初心者向けではありません。したがって、すでに特定した他の代替案を使用してください。

java - インライン CSS で HTML 記事テキストを抽出する

1 に答える 1

Related

Reference