問題タブ [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Web ページからメイン コンテンツを抽出する方法は?
Web ページの内容の要約を書こうとしています。そのためには、Web ページから無関係なテキストとデータをすべて抽出する必要があります。
私はボイラーパイプを使用しましたが、テキストの抽出はうまくいきません。結果はここにあります。ここには、無関係なテキストがたくさん表示されます。
また、ヘッダー、フッター、外部リンクなどを削除して、JSoup で無関係なデータを削除しようとしましたが、やはり結果は的を射ていません。
誰かがこれを行う方法を教えてもらえますか? ボイラーパイプ以外の Java ライブラリはありますか?
java - HTML から記事の見出しを抽出する (Boilerpipe を使用)
Boilerpipe を使用すると、Web ページから記事のテキストだけを抽出して、HTML の混乱をすべてクリーンアップできます。しかし、どうすれば記事の見出しを抽出できますか? ページのタイトルだけを使用する方法もありますが、不必要な単語 (「タイトル - サイト名」など) が含まれている場合があります。
もう 1 つのアイデアは、<h1>
との間のテキストを検索することですが</h1>
、さらに解決策を尋ねたいと思いました。
java - ボイラーパイプに制限はありますか?
データマイニングの目的で、サイトのすべての記事 (ニュース) をスクレイピングするためにボイラーパイプを使用したいと考えています。ボイラーパイプのデモページには次のように記載されています。
過去にこの無料サービスを多用したため、ユーザーあたりのリクエスト数は制限されています
ボイラーパイプ ライブラリに何らかの制限がありますか、それともこの制限はデモ ページ用ですか?
java - Android Studio:ボイラーパイプ ライブラリを追加した後のビルド エラー
テキストの解析に [boilerpipe][1] を使用しようとしています。boilerpipe-1.2.0.jar
、nekohtml-1.9.13.jar
およびxerces-2.9.1.jar
をlibフォルダーにコピーして、ライブラリとして追加しました。しかし、プロジェクトを実行しようとすると、大きなエラーが発生します。これがその最後の部分です-
これが私のアプリbuild.gradleです
--debug オプションを使用した出力は次のとおりです。
java - Android Studio:ボイラーパイプからの java.lang.NoClassDefFoundError
ポケットアプリのようなテキスト記事を取得するためにボイラーパイプを使用しようとしています。アプリは正しくコンパイルされますが、ランタイム例外が発生します:
私がすでに試したことは次のとおりです。
- プロジェクトのクリーンアップとビルド
- グラドルクリーン
- さまざまな方法でライブラリを追加する
同じバグが github に投稿されているのを見ました。
これが私のbuild.gradleです:
html - Apache Tikaヘッダーとフッターのコンテンツなしでhtmlボディを抽出する方法
ヘッダーとフッターを除くhtmlの本文全体を抽出しようとしていますが、例外が発生しています
org.xml.sax.SAXException: 名前空間http://www.w3.org/1999/xhtmlが宣言されていません
以下は、で述べたように作成した私のコードです
私が得ている例外は
TIKA-1215 に従ってコンテンツ ハンドラーをラップすべきではないことは理解していますが、この問題を解決するための代替アプローチは見当たりません。単純な bodycontenthandler が役に立たないため、これに似た多くのスタックオーバーフロー ケースを確認しましたが、できませんでした。どこでも解決策が見つかりません。アドバイス、解決策、またはポインタは大歓迎です。