servlets - プレーンテキストではなく HTML で BoilerPipe 抽出の結果を取得する方法

Question

次のコードを使用して Web ページからテキストコンテンツを抽出しています。私のアプリは Google App Engine でホストされており、BoilerPipe Web APIとまったく同じように動作します。問題は、プレーンテキスト形式でしか結果を取得できないことです。回避策を見つけるためにライブラリをいじりましたが、結果を HTML で表示する方法が見つかりませんでした。私がしようとしているのは、元の BoilerPipe Web API hereのように、HTML (抽出モード) のようなオプションを含めることです。

これは、プレーンテキストを抽出するために使用しているコードです。

 PrintWriter out = response.getWriter();
    try {
        String urlString = request.getParameter("url");
        String listOUtput = request.getParameter("OutputType");
        String listExtractor = request.getParameter("ExtractorType");
        URL url = new URL(urlString);
        switch (listExtractor) {
            case "1":
                String mainArticle = ArticleExtractor.INSTANCE.getText(url);
                out.println(mainArticle);
                break;
            case "2":
                String fullArticle = KeepEverythingExtractor.INSTANCE.getText(url);
                out.println(fullArticle);
                break;
        }
    } catch (BoilerpipeProcessingException e) {
        out.println("Sorry We Couldn't Scrape the URL you Entered " + e.getLocalizedMessage());
    } catch (IOException e) {
        out.println("Exception thrown");
    }

結果を HTML 形式で表示する機能を組み込むにはどうすればよいですか?

score 3 · Accepted Answer

私は Boilerpipe のソースコードを使用しており、次のコードで質問を解決します。

String urlString = "your url";
URL url = new URL(urlString);
URI uri = new URI(urlString);

final HTMLDocument htmlDoc = HTMLFetcher.fetch(url);

final BoilerpipeExtractor extractor = CommonExtractors.DEFAULT_EXTRACTOR;

final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();
hh.setOutputHighlightOnly(true);

TextDocument doc;

String text = "";

doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
extractor.process(doc);
final InputSource is = htmlDoc.toInputSource();
text = hh.process(doc, is);

System.out.println(text);

ソース

servlets - プレーンテキストではなく HTML で BoilerPipe 抽出の結果を取得する方法

1 に答える 1

Related

Reference