問題タブ [boilerpipe]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

77 問題

0 投票する

2 に答える

745 参照

java - Android でボイラーパイプを使用する

Boilerpipe は、基本的に Web ページからメインコンテンツを抽出するライブラリです。ニュース Web サイトの場合、フォーマットがサイトごとに異なるため、コンテンツを抽出することは特に困難です。だから私はボイラーパイプライブラリを統合しようとしました - https://code.google.com/p/boilerpipe/wiki/QuickStart

インストールガイドに従って、Java クラスパスに以下を追加しました - ボイラーパイプ-VERSION.jar、nekohtml-1.9.13.jar、および xerces-2.9.1.jar

ボイラーパイプとそれを含むアプリケーションフローでやろうとしていること

記事のリストがあるリストビューがあります。listviewの項目のいずれかをクリックすると、その記事に固有のURLを取得し、ボイラーパイプを使用してその記事からテキストを抽出し、テキストビューに印刷される新しいアクティビティを開始するようにonItemClickListenerを設定しました.

問題

リスト内の項目の 1 つをクリックすると、アプリケーションがクラッシュします。 a. 私は初心者なので、書いたコードが正しいかどうかはわかりません。失礼いたします。正しくない場合、どうすれば修正できますか? URLに問題があると思います。 b. ボイラープレートを正しくインストールしていない場合、正しい方法は何ですか

リストアクティビティ:

記事のアクティビティ:

article_view.xml

スタックトレース：

2013-09-30T07:29:47.177

0 投票する

1 に答える

95 参照

boilerpipe - ボイラーパイプを使用してボイラープレートを保持する

ライブラリを使用しboilerpipeてニュース記事を分析しています。ニュース記事には、著作権情報、関連記事のサイドペインなど、多くの定型文が含まれてBoilerpipeいます。これらの情報はすべて削除されます。ボイラープレート情報を返すことは可能ですか? 著作権ステートメントなどからいくつかのものを分析して抽出する必要があります。

また、定型文であるかどうかについて、各テキストブロックに何らかの信頼が含まれていますか?

ありがとう。

boilerpipe

2013-10-01T06:51:59.247

0 投票する

2 に答える

478 参照

ruby - 記事の抽出 - Ruby

ruby を使用して Web ページからコンテンツのみを抽出するオプションはありますか。(リンクなどは避けてください)

ruby ruby-on-rails-4 boilerpipe

2014-01-23T04:49:02.317

1 2 3 4 5 6 7 8 9 10

問題タブ [boilerpipe]

java - Android でボイラーパイプを使用する

boilerpipe - ボイラーパイプを使用してボイラープレートを保持する

ruby - 記事の抽出 - Ruby

Reference