ボイラーパイプの ArticleExtractor クラスの使用について、私がよく理解していないことがあります。とはいえ、私はJavaも初めてなので、おそらくこの環境に関する私の基本的な知識に誤りがあります。
とにかく、ボイラーパイプを使用して、収集した生の HTML ソースから主要な記事を抽出しようとしています。HTML ソース テキストは、Web ページの生の HTML コンテンツを持つ java.lang.String 変数 (htmlstr と呼びましょう) 変数に格納されます。
次のように、ボイラーパイプを実行して、抽出されたテキストを出力ウィンドウに出力する方法を知っています。
java.lang.String htmlstr = "<!DOCTYPE.... ****html source**** ... </html>";
java.lang.String article = ArticleExtractor.INSTANCE.getText(htmlstr);
System.out.println(article);
ただし、最初に ArticleExtractor クラスのインスタンスをインスタンス化し、それを「TextDocument」入力データ型で呼び出すことによって BP を実行する方法がわかりません。TextDocument データ型自体は、何らかの形で BP の「TextBlock」データ型から構築されており、おそらくこれを正しく行っていません...
htmlstr 文字列変数から TextDocument 型変数を作成する適切な方法は何ですか?
したがって、私の問題は、上記の例のように ArticleExtractor getText メソッドを呼び出す以外に、BP の Article Extractor クラスの処理メソッドを使用することです。つまり、使い方がわからない
ArticleExtractor.process(TextDocument doc);
方法。
この ArticleExtractor プロセス メソッドを実行して、BP の
TextDocumentStatistics(TextDocument doc, boolean contentOnly)
方法?統計を使用して、フィルタリングがどの程度良好であると推定されたかを判断したいと思います。
誰かが私を助けることができるコード例はありますか?