Android アプリケーションの Web ページからタイトルとコンテンツ (パラグラフ化) を抽出できましたが、画像の取得に失敗することがあります。
しかし、html 形式のパラメーター (太字、ハイパーリンク、下線、フォント サイズなど) をエクストラクターで保持する方法が見つかりませんでした。
つまり、Web ページの文に太字、ハイパーリンク、または下線が付いている場合、文自体とその書式パラメータの両方を抽出するにはどうすればよいでしょうか?
このページを試してみました: Web-APIとローカル jarの APIの両方による記事。
ローカル API を使用して Web-API と同じ結果を得たいと考えています。
どなたか、この問題についてあなたの経験を共有していただけませんか?
どうもありがとう、
ジェームズ
編集#1
コードは次のとおりです。
signalUpdate(STATE.Start);
//
htmlDoc = HTMLFetcher.fetch(new URL(url));
//
doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
extraction.setTitle(doc.getTitle()); // obtaining title
ArticleExtractor.INSTANCE.process(doc); // obtaining content
SplitParagraphBlocksFilter.INSTANCE.process(doc);
contentBuilder.setLength(0);
for(TextBlock block : doc.getTextBlocks()) {
blockString = "<p>" + block.getText() + "</p>";
contentBuilder.append(blockString);
}
extraction.setContent(contentBuilder.toString());
// obtaining image
extractor = CommonExtractors.ARTICLE_EXTRACTOR;
ie = ImageExtractor.INSTANCE;
imgUrls = ie.process(new URL(url), extractor);
extraction.setImgUrls(imgUrls);
//
signalUpdate(STATE.Complete);
実際、「失敗」とは次のことを意味します。
いくつかの Web サイトから画像を取得できました。ただし、上記のこの記事では画像を取得できませんでした。