問題タブ [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
119 参照

java - Boilerpipe 使用時の ConnectException エラーを解決するには?

Boilerpipe を使用して、いくつかの Web サイトのニュースページからテキストを抽出したいと考えています。問題は、試行するたびに ConnectionException エラーが発生することです。ボイラーパイプ クイックスタート ガイドの構文例を使用しました。

そして、ここに接続エラーがあります:

多くのサイトで試しましたが、同じエラーが発生します。

どうすればこの問題を解決できますか、または少なくとも問題がどこにあるかを確認できますか? (おそらくファイアウォール、またはポート構成...)

0 投票する
0 に答える
626 参照

java - ボイラーパイプの使用中にサーバーエラー 401 (および 403) を回避するには?

BoilerPipe for Java を使用して、インターネットからいくつかの記事を抽出します。多くのサイトで機能しますが、いくつかのサイトでは、Web ブラウザーで認証を必要としないときに、Http 401 サーバー エラーが発生します...

401 エラーを返すサイトの例を次に示します: http://www.nature.com/nchem/journal/v7/n4/full/nchem.2206.html

私はこれで ArticleExtractor を呼び出します:

そして、ここにエラーがあります:

スタック トレースを調べたところ、接続が確立された直後に問題が発生したことがわかりました (BoilerPipe クラスで)。

Web ブラウザーで記事を表示できるときに、他の Web サイトでもエラー 403 が発生しました。この問題を回避するには?

ありがとうございました !

編集-更新:接続を開いた後に次の行を追加することで、403エラーの問題を解決できました:

しかし、私はまだ 401 問題を解決していません。Web ブラウザーでヘッダー内の情報を検索したところ、ブラウザーでも 401 エラーが発生することがわかりましたが、それでも情報を取得できます。プリントスクリーンを作りました: Image http://img11.hostingpics.net/pics/757747error401.png

Webブラウザで機能するURLを使用するだけでテキストを取得できるかどうかさえわかりません...誰かが私を助けることができれば、それは素晴らしいことです! :)

編集 - 更新 2 : ネットワークを調べたところ、200 を返すいくつかのリンクが見つかりました (基本的には最初のリンクからいくつかの変更がありますが、多くの GET パラメータが含まれています) が、それでも 401 エラーが返されたため、何を使用すればよいかわかりません. 302/303 リダイレクトもいくつかありましたが、それ以上の結果はありませんでした。

編集 - 更新 3 : 言い換えると、物事がより明確になるかもしれません: URLConnectionWeb ブラウザーが行うように、リクエストの「パス」をたどることができる方法はありますか?

0 投票する
4 に答える
14878 参照

java - Python から JVM にアクセスする

試した:jvmの再インストール

編集:以下のコードを試しましたが、まだスタックしています:

from py4j.java_gateway import JavaGateway gateway = JavaGateway() 以前と同じエラーが発生します。

0 投票する
1 に答える
160 参照

java - Java Web クローラーがダウンロードする GB データが多すぎます

Webクローラーをコーディングしました。ただし、クロールすると、大量の GB のデータがダウンロードされます。

テキストだけを読みたい(画像を避けたい…など)。

Boilerpipeを使用して html からコンテンツを抽出します

最終的にリダイレクトされたURLを見つける方法は次のとおりです

これは私がURLを取得する方法です

そして、Boilerpipeを使用して body を取得するには

ダウンロードするデータ量を減らすには?

0 投票する
1 に答える
1228 参照

python - pip install ボイラーパイプが tarfile.ReadError: empty file で失敗しました

pip を使用してボイラーパイプをインストールしようとしましたが、失敗しました。

これがログです。

コマンド python setup.py egg_info からの完全な出力:

/tmp/pip-build-J2gFYC/boilerpipe でコマンド「python setup.py egg_info」がエラー コード 1 で失敗しました

0 投票する
0 に答える
101 参照

python - ボイラーパイプのインポート エラー urllib2

JPype と Boilerpipe Python ラッパーのインストールに成功しました。

私の JAVA_HOME パスは正しいです (私の知る限り)。

次のコードで python ファイルを作成しました。

実行するとこのエラーが発生しますpython3 boiler_test.py

どうすればこれを解決できますか?

ありがとうございました。