問題タブ [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
969 参照

servlets - プレーンテキストではなく HTML で BoilerPipe 抽出の結果を取得する方法

次のコードを使用して Web ページからテキスト コンテンツを抽出しています。私のアプリは Google App Engine でホストされており、BoilerPipe Web APIとまったく同じように動作します。問題は、プレーン テキスト形式でしか結果を取得できないことです。回避策を見つけるためにライブラリをいじりましたが、結果を HTML で表示する方法が見つかりませんでした。私がしようとしているのは、元の BoilerPipe Web API hereのように、HTML (抽出モード) のようなオプションを含めることです。

これは、プレーンテキストを抽出するために使用しているコードです。

結果を HTML 形式で表示する機能を組み込むにはどうすればよいですか?

0 投票する
2 に答える
336 参照

maven - ボイラーパイプの依存関係が見つかりません

https://github.com/Netbreeze-GmbH/boilerpipeによると、ボイラーパイプの Maven 依存関係は

ただし、この依存関係は Maven 経由では利用できません。私が見つけた最も近いものはhttp://search.maven.org/#search%7Cgav%7C1%7Cg%3A%22de.l3s.boilerpipe%22%20AND%20a%3A%22boilerpipe%22です。この依存関係はバージョン 1.1.0 です。依存関係 1.2.2 を追加するにはどうすればよいですか?

アップデート :

この場所で依存関係を見つけました: https://mvnrepository.com/artifact/com.syncthemall/boilerpipe/1.2.2

0 投票する
2 に答える
1497 参照

python - Pythonボイラーパイプのインストールの問題

Ubuntu 14 にPython Boilerpipeをインストールしようとしています。次のエラーで失敗します。

これらは私が従っている手順です:

0 投票する
0 に答える
173 参照

python - タスクが完了した後でも Python マルチプロセッシング プロセスが強制終了されない

Amazon SQS から読み取り、ユーザーが必要な数の並列プロセスを作成する Python スクリプトを作成しました。Django BaseCommand を継承しており、これがコードです。

これは正常に機能しており、タスクが完了するとすべてのプロセスが強制終了されます。ただし、ボイラーパイプを使用してデータを抽出する特定のアクティビティではありません。

ボイルパイプ コードを調べると、Extractor のコンストラクターに次のコードがあることがわかりました。

完全なコードはこれです

  1. プロセスが強制終了されないのはなぜですか、マルチ処理のやり方に何か問題がありますか?
  2. それとも、このスレッドのロックが問題を引き起こしているのでしょうか (私にはよくわかりませんが、何が問題なのかを考えただけです)。

アドバイスをください、事前に感謝します。

0 投票する
2 に答える
1125 参照

python - Boilerpipe-py3 をインストールしようとすると 404 エラーが発生する

Boilerpipe は、Web ページをクリーンアップするための優れた Java プログラムであり、私は過去に使用したことがあります。今日、多くのユーザーが Python ラッパー バージョンをインストールできず、404 やその他のエラーが発生することに気付きました。これは、conda からコピーした私の試みの 1 つです。

/Users/duncan>sudo -H pip install https://pypi.python.org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 収集中 https://pypi.python. org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz ボイラーパイプ-py3-1.2.0.0.tar.gz (1.3MB) 100% をダウンロード中 |████████████████████████████████ █| 1.3MB 436kB/s コマンドからの完全な出力 python setup.py egg_info: Traceback (most recent call last): File "", line 1, in File "/tmp/pip-r6swd0hy-build/setup.py", line 33, download_jars(datapath=DATAPATH) ファイル "/tmp/pip-r6swd0hy-build/setup.py"、26 行目、download_jars urlretrieve(tgz_url, tgz_name) ファイル "/Users/duncan/anaconda/lib/python3.5/urllib /request.py"、188 行目、contextlib.closing(urlopen(url, data)) を fp として使用した urlretrieve: ファイル "/Users/duncan/anaconda/lib/python3.5/urllib/request.py"、163 行目、 urlopen で opener.open(url, data, timeout) を返す ファイル "/Users/duncan/anaconda/lib/python3.5/urllib/request.

/tmp/pip-r6swd0hy-build/ でコマンド「python setup.py egg_info」がエラー コード 1 で失敗しました

私にとってはうまくいかない解決策をいくつか見てきました (例: Google がモジュールの URL を変更した)。

ここでの私のプラットフォームは 16GB の El Capitan ですが、これは Ubuntu やその他のプラットフォームで報告されているのを見てきました。ここで助けてくれてありがとう!

0 投票する
1 に答える
135 参照

java - ボイラープレートを使用して HTML から記事のメイン コンテンツを取得する方法は?

ボイラーパイプコードを使用して HTML から記事のメイン コンテンツを取得しようとしています。

hereから最新のjarをダウンロードしました。

次のコードを使用しようとしています。

しかし、これはすべての URL に対して空の文字列を返します。誰でもこれについて私を助けることができますか?

0 投票する
0 に答える
568 参照

java - Web ページの記事の主な内容を要約するにはどうすればよいですか?

HTML ページの記事要約を作成しようとしています。これまでのところ、ボイラーパイプと classifier4J を使用ました。

しかし、ほとんどの場合、文の構成が適切に行われていないため、コードは目的の結果を生成しません。

http://smmry.com/のようなきちんとしたものを実装しようとしています。

これを行うJavaライブラリを知っている人はいますか?