問題タブ [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
462 参照

java - Web ページからメイン コンテンツを抽出する方法は?

Web ページの内容の要約を書こうとしています。そのためには、Web ページから無関係なテキストとデータをすべて抽出する必要があります。

私はボイラーパイプを使用しましたが、テキストの抽出はうまくいきません。結果はここにあります。ここには、無関係なテキストがたくさん表示されます。

また、ヘッダー、フッター、外部リンクなどを削除して、JSoup で無関係なデータを削除しようとしましたが、やはり結果は的を射ていません。

誰かがこれを行う方法を教えてもらえますか? ボイラーパイプ以外の Java ライブラリはありますか?

0 投票する
1 に答える
236 参照

java - HTML から記事の見出しを抽出する (Boilerpipe を使用)

Boilerpipe を使用すると、Web ページから記事のテキストだけを抽出して、HTML の混乱をすべてクリーンアップできます。しかし、どうすれば記事の見出しを抽出できますか? ページのタイトルだけを使用する方法もありますが、不必要な単語 (「タイトル - サイト名」など) が含まれている場合があります。

もう 1 つのアイデアは、<h1>との間のテキストを検索することですが</h1>、さらに解決策を尋ねたいと思いました。

0 投票する
1 に答える
93 参照

java - ボイラーパイプに制限はありますか?

データマイニングの目的で、サイトのすべての記事 (ニュース) をスクレイピングするためにボイラーパイプを使用したいと考えています。ボイラーパイプのデモページには次のように記載されています。

過去にこの無料サービスを多用したため、ユーザーあたりのリクエスト数は制限されています

ボイラーパイプ ライブラリに何らかの制限がありますか、それともこの制限はデモ ページ用ですか?

0 投票する
1 に答える
383 参照

java - Android Studio:ボイラーパイプ ライブラリを追加した後のビルド エラー

テキストの解析に [boilerpipe][1] を使用しようとしています。boilerpipe-1.2.0.jarnekohtml-1.9.13.jarおよびxerces-2.9.1.jarをlibフォルダーにコピーして、ライブラリとして追加しました。しかし、プロジェクトを実行しようとすると、大きなエラーが発生します。これがその最後の部分です-

これが私のアプリbuild.gradleです

--debug オプションを使用した出力は次のとおりです。

0 投票する
1 に答える
231 参照

java - Android Studio:ボイラーパイプからの java.lang.NoClassDefFoundError

ポケットアプリのようなテキスト記事を取得するためにボイラーパイプを使用しようとしています。アプリは正しくコンパイルされますが、ランタイム例外が発生します:

私がすでに試したことは次のとおりです。

  1. プロジェクトのクリーンアップとビルド
  2. グラドルクリーン
  3. さまざまな方法でライブラリを追加する

同じバグが github に投稿されているのを見ました。

これが私のbuild.gradleです:

0 投票する
1 に答える
2220 参照

html - Apache Tikaヘッダーとフッターのコンテンツなしでhtmlボディを抽出する方法

ヘッダーとフッターを除くhtmlの本文全体を抽出しようとしていますが、例外が発生しています

org.xml.sax.SAXException: 名前空間http://www.w3.org/1999/xhtmlが宣言されていません

以下は、で述べたように作成した私のコードです

私が得ている例外は

TIKA-1215 に従ってコンテンツ ハンドラーをラップすべきではないことは理解していますが、この問題を解決するための代替アプローチは見当たりません。単純な bodycontenthandler が役に立たないため、これに似た多くのスタックオーバーフロー ケースを確認しましたが、できませんでした。どこでも解決策が見つかりません。アドバイス、解決策、またはポインタは大歓迎です。