私のアプリケーションで Boilerpipe を使用しており、ArticleExtractor を使用してコンテンツを抽出しようとすると、平面テキストのみが取得され、すべての html フォーマットが削除されているため、HtmlHighlighter を使用しようとしています。しかし、HtmlHighlighter の process メソッドは特定の URL で失敗します。このメソッドに渡すために html 文字列を使用するオプションはありますか? 誰か説明できますか?
質問する
222 次
1 に答える
0
IKVMを使用して Boilerpipe jar を新しい DLL に変換し、.NET アプリケーションで使用できます。私はこのアプローチを使用しており、さまざまなボイラーパイプ メソッドをスローした html を送信するときに正常に動作します。
アクセスしようとしているページ コンテンツが JavaScript によって読み込まれている場合、単純な http リクエストではそのような情報を処理できません。最初に、javascript の変更後に結果の html を取得し、それをボイラーパイプに渡す必要があります。
于 2016-06-01T09:47:16.183 に答える