問題タブ [boilerpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Boilerpipe 使用時の ConnectException エラーを解決するには?
Boilerpipe を使用して、いくつかの Web サイトのニュースページからテキストを抽出したいと考えています。問題は、試行するたびに ConnectionException エラーが発生することです。ボイラーパイプ クイックスタート ガイドの構文例を使用しました。
そして、ここに接続エラーがあります:
多くのサイトで試しましたが、同じエラーが発生します。
どうすればこの問題を解決できますか、または少なくとも問題がどこにあるかを確認できますか? (おそらくファイアウォール、またはポート構成...)
java - ボイラーパイプの使用中にサーバーエラー 401 (および 403) を回避するには?
BoilerPipe for Java を使用して、インターネットからいくつかの記事を抽出します。多くのサイトで機能しますが、いくつかのサイトでは、Web ブラウザーで認証を必要としないときに、Http 401 サーバー エラーが発生します...
401 エラーを返すサイトの例を次に示します: http://www.nature.com/nchem/journal/v7/n4/full/nchem.2206.html
私はこれで ArticleExtractor を呼び出します:
そして、ここにエラーがあります:
スタック トレースを調べたところ、接続が確立された直後に問題が発生したことがわかりました (BoilerPipe クラスで)。
Web ブラウザーで記事を表示できるときに、他の Web サイトでもエラー 403 が発生しました。この問題を回避するには?
ありがとうございました !
編集-更新:接続を開いた後に次の行を追加することで、403エラーの問題を解決できました:
しかし、私はまだ 401 問題を解決していません。Web ブラウザーでヘッダー内の情報を検索したところ、ブラウザーでも 401 エラーが発生することがわかりましたが、それでも情報を取得できます。プリントスクリーンを作りました: Image http://img11.hostingpics.net/pics/757747error401.png
Webブラウザで機能するURLを使用するだけでテキストを取得できるかどうかさえわかりません...誰かが私を助けることができれば、それは素晴らしいことです! :)
編集 - 更新 2 : ネットワークを調べたところ、200 を返すいくつかのリンクが見つかりました (基本的には最初のリンクからいくつかの変更がありますが、多くの GET パラメータが含まれています) が、それでも 401 エラーが返されたため、何を使用すればよいかわかりません. 302/303 リダイレクトもいくつかありましたが、それ以上の結果はありませんでした。
編集 - 更新 3 : 言い換えると、物事がより明確になるかもしれません: URLConnection
Web ブラウザーが行うように、リクエストの「パス」をたどることができる方法はありますか?
java - Python から JVM にアクセスする
試した:jvmの再インストール
編集:以下のコードを試しましたが、まだスタックしています:
from py4j.java_gateway import JavaGateway
gateway = JavaGateway()
以前と同じエラーが発生します。
java - Java Web クローラーがダウンロードする GB データが多すぎます
Webクローラーをコーディングしました。ただし、クロールすると、大量の GB のデータがダウンロードされます。
テキストだけを読みたい(画像を避けたい…など)。
Boilerpipeを使用して html からコンテンツを抽出します
最終的にリダイレクトされたURLを見つける方法は次のとおりです
これは私がURLを取得する方法です
そして、Boilerpipeを使用して body を取得するには
ダウンロードするデータ量を減らすには?
python - pip install ボイラーパイプが tarfile.ReadError: empty file で失敗しました
pip を使用してボイラーパイプをインストールしようとしましたが、失敗しました。
これがログです。
コマンド python setup.py egg_info からの完全な出力:
/tmp/pip-build-J2gFYC/boilerpipe でコマンド「python setup.py egg_info」がエラー コード 1 で失敗しました
python - ボイラーパイプのインポート エラー urllib2
JPype と Boilerpipe Python ラッパーのインストールに成功しました。
私の JAVA_HOME パスは正しいです (私の知る限り)。
次のコードで python ファイルを作成しました。
実行するとこのエラーが発生しますpython3 boiler_test.py
どうすればこれを解決できますか?
ありがとうございました。