問題タブ [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Android でボイラーパイプを使用する
Boilerpipe は、基本的に Web ページからメイン コンテンツを抽出するライブラリです。ニュース Web サイトの場合、フォーマットがサイトごとに異なるため、コンテンツを抽出することは特に困難です。だから私はボイラーパイプライブラリを統合しようとしました - https://code.google.com/p/boilerpipe/wiki/QuickStart
インストールガイドに従って、Java クラスパスに以下を追加しました - ボイラーパイプ-VERSION.jar、nekohtml-1.9.13.jar、および xerces-2.9.1.jar
ボイラーパイプとそれを含むアプリケーション フローでやろうとしていること
記事のリストがあるリストビューがあります。listviewの項目のいずれかをクリックすると、その記事に固有のURLを取得し、ボイラーパイプを使用してその記事からテキストを抽出し、テキストビューに印刷される新しいアクティビティを開始するようにonItemClickListenerを設定しました.
問題
リスト内の項目の 1 つをクリックすると、アプリケーションがクラッシュします。 a. 私は初心者なので、書いたコードが正しいかどうかはわかりません。失礼いたします。正しくない場合、どうすれば修正できますか? URLに問題があると思います。 b. ボイラープレートを正しくインストールしていない場合、正しい方法は何ですか
リスト アクティビティ:
記事のアクティビティ:
article_view.xml
スタックトレース:
boilerpipe - ボイラーパイプを使用してボイラープレートを保持する
ライブラリを使用しboilerpipe
てニュース記事を分析しています。ニュース記事には、著作権情報、関連記事のサイド ペインなど、多くの定型文が含まれてBoilerpipe
います。これらの情報はすべて削除されます。ボイラープレート情報を返すことは可能ですか? 著作権ステートメントなどからいくつかのものを分析して抽出する必要があります。
また、定型文であるかどうかについて、各テキスト ブロックに何らかの信頼が含まれていますか?
ありがとう。
ruby - 記事の抽出 - Ruby
ruby を使用して Web ページからコンテンツのみを抽出するオプションはありますか。(リンクなどは避けてください)