boilerpipe - ボイラーパイプを使用してボイラープレートを保持する

Question

ライブラリを使用しboilerpipeてニュース記事を分析しています。ニュース記事には、著作権情報、関連記事のサイドペインなど、多くの定型文が含まれてBoilerpipeいます。これらの情報はすべて削除されます。ボイラープレート情報を返すことは可能ですか? 著作権ステートメントなどからいくつかのものを分析して抽出する必要があります。

また、定型文であるかどうかについて、各テキストブロックに何らかの信頼が含まれていますか?

ありがとう。

score 1 · Accepted Answer

ボイラープレートが提供する Document クラスを使用して、テキスト全体を取得したり、実際のテキストブロックをトラバースしたりできます。

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document

boilerpipe - ボイラーパイプを使用してボイラープレートを保持する

1 に答える 1

Related

Reference