html - ボイラーパイプを使用して Web ページからコンテンツを抽出するときに、元の html 形式を保持するにはどうすればよいですか?

Question

Android アプリケーションの Web ページからタイトルとコンテンツ (パラグラフ化) を抽出できましたが、画像の取得に失敗することがあります。

しかし、html 形式のパラメーター (太字、ハイパーリンク、下線、フォントサイズなど) をエクストラクターで保持する方法が見つかりませんでした。

つまり、Web ページの文に太字、ハイパーリンク、または下線が付いている場合、文自体とその書式パラメータの両方を抽出するにはどうすればよいでしょうか?

このページを試してみました: Web-APIとローカル jarの APIの両方による記事。

ローカル API を使用して Web-API と同じ結果を得たいと考えています。

どなたか、この問題についてあなたの経験を共有していただけませんか?

どうもありがとう、

ジェームズ

編集＃1

コードは次のとおりです。

signalUpdate(STATE.Start);

//
htmlDoc = HTMLFetcher.fetch(new URL(url));

//                  
doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
extraction.setTitle(doc.getTitle());        // obtaining title

ArticleExtractor.INSTANCE.process(doc);     // obtaining content
SplitParagraphBlocksFilter.INSTANCE.process(doc);

contentBuilder.setLength(0);

for(TextBlock block : doc.getTextBlocks()) {
    blockString = "<p>" + block.getText() + "</p>";
    contentBuilder.append(blockString);
}

extraction.setContent(contentBuilder.toString());

// obtaining image
extractor = CommonExtractors.ARTICLE_EXTRACTOR;
ie = ImageExtractor.INSTANCE;
imgUrls = ie.process(new URL(url), extractor);
extraction.setImgUrls(imgUrls);

//
signalUpdate(STATE.Complete);

実際、「失敗」とは次のことを意味します。

いくつかの Web サイトから画像を取得できました。ただし、上記のこの記事では画像を取得できませんでした。

html - ボイラーパイプを使用して Web ページからコンテンツを抽出するときに、元の html 形式を保持するにはどうすればよいですか?

0 に答える 0

Related

Reference