1

クロールされた HTML Web ページからテキストを抽出したいと考えています。私はまさにそれを行うために、優れたオープン ソースのBoilerpipeライブラリを使用しています。ただし、Boilerpipe を使用すると、生のテキストしか取得できません。生のテキストに加えて、すべての css スタイリング情報をインライン化して、元のソースの書式設定情報を含むテキストをキャプチャする必要があります。

Boilerpipe または他の Java ライブラリ、できればオープン ソースでこれを行う方法はありますか?

4

1 に答える 1

1

まず、私は Boilerpipe を使用したことがない、または今まで聞いたことさえないと言っておかなければなりません。

しかし、Web サイトと javadocs を見ると、スタイリングを使用してテキストを抽出するために使用することはできないと思います。基本的な概念上の問題は、そのスタイリングがどのように表現されるか、またはどのように表現されるかです。たとえば、BoilerpipeExtractorインターフェイスには 4 つgetTextのメソッドがあり、これらの各メソッドは抽出されたテキストを文字列として返します。文字列でスタイリングをどのように表現しますか? ある種のマークアップを埋め込む必要がありますが...

  • マークアップの種類と
  • これを、メソッドが「マークアップ付きのテキスト」ではなく「テキスト」を返すというインターフェースの説明とどのように調和させますか。

したがって、私の評価では、Boilerpipe を使用してスタイリングを使用してテキストを抽出することは、まったく初心者向けではありません。したがって、すでに特定した他の代替案を使用してください。

于 2012-06-10T03:58:52.970 に答える