ライブラリを使用しboilerpipe
てニュース記事を分析しています。ニュース記事には、著作権情報、関連記事のサイド ペインなど、多くの定型文が含まれてBoilerpipe
います。これらの情報はすべて削除されます。ボイラープレート情報を返すことは可能ですか? 著作権ステートメントなどからいくつかのものを分析して抽出する必要があります。
また、定型文であるかどうかについて、各テキスト ブロックに何らかの信頼が含まれていますか?
ありがとう。
ライブラリを使用しboilerpipe
てニュース記事を分析しています。ニュース記事には、著作権情報、関連記事のサイド ペインなど、多くの定型文が含まれてBoilerpipe
います。これらの情報はすべて削除されます。ボイラープレート情報を返すことは可能ですか? 著作権ステートメントなどからいくつかのものを分析して抽出する必要があります。
また、定型文であるかどうかについて、各テキスト ブロックに何らかの信頼が含まれていますか?
ありがとう。
ボイラープレートが提供する Document クラスを使用して、テキスト全体を取得したり、実際のテキスト ブロックをトラバースしたりできます。
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document