問題タブ [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
745 参照

java - Android でボイラーパイプを使用する

Boilerpipe は、基本的に Web ページからメイン コンテンツを抽出するライブラリです。ニュース Web サイトの場合、フォーマットがサイトごとに異なるため、コンテンツを抽出することは特に困難です。だから私はボイラーパイプライブラリを統合しようとしました - https://code.google.com/p/boilerpipe/wiki/QuickStart

インストールガイドに従って、Java クラスパスに以下を追加しました - ボイラーパイプ-VERSION.jar、nekohtml-1.9.13.jar、および xerces-2.9.1.jar

ボイラーパイプとそれを含むアプリケーション フローでやろうとしていること

記事のリストがあるリストビューがあります。listviewの項目のいずれかをクリックすると、その記事に固有のURLを取得し、ボイラーパイプを使用してその記事からテキストを抽出し、テキストビューに印刷される新しいアクティビティを開始するようonItemClickListener設定しました.

問題

リスト内の項目の 1 つをクリックすると、アプリケーションがクラッシュします。 a. 私は初心者なので、書いたコードが正しいかどうかはわかりません。失礼いたします。正しくない場合、どうすれば修正できますか? URLに問題があると思います。 b. ボイラープレートを正しくインストールしていない場合、正しい方法は何ですか

リスト アクティビティ:

記事のアクティビティ:

article_view.xml

スタックトレース:

0 投票する
1 に答える
95 参照

boilerpipe - ボイラーパイプを使用してボイラープレートを保持する

ライブラリを使用しboilerpipeてニュース記事を分析しています。ニュース記事には、著作権情報、関連記事のサイド ペインなど、多くの定型文が含まれてBoilerpipeいます。これらの情報はすべて削除されます。ボイラープレート情報を返すことは可能ですか? 著作権ステートメントなどからいくつかのものを分析して抽出する必要があります。

また、定型文であるかどうかについて、各テキスト ブロックに何らかの信頼が含まれていますか?

ありがとう。

0 投票する
2 に答える
478 参照

ruby - 記事の抽出 - Ruby

ruby を使用して Web ページからコンテンツのみを抽出するオプションはありますか。(リンクなどは避けてください)