1

私は今、Nutchでページをクロールすることを学んでいます。しかし、私が修正できない問題があります。127.0.0.1:8087というアドレスのローカルプロキシサーバーを介してページをクロールしたい。そしてサーバーはうまく機能します(私のFireFoxはそれをうまく使うことができます)。Nutch-confファイルconf/nutch-site.xmlに、次のようにいくつかのプロパティを追加しました。

http.agent.host-> 127.0.0.1

http.proxy.port-> 8087

私のローカルサーバーは認証を必要としません。

Nutchは正常に実行できますが、プロキシ経由で要求することはできません。

ありがとう。

4

2 に答える 2

4

これらのプロパティを nutch-site.xml に追加するだけです (XXXX を正しい値に置き換えます)。

<property>
  <name>http.proxy.host</name>
  <value>XXXXXX</value>
  <description>The proxy hostname.  If empty, no proxy is used.</description>
</property>

<property>
  <name>http.proxy.port</name>
  <value>XXXXXXXX</value>
  <description>The proxy port.</description>
</property>

認証が必要な場合:

<property>
  <name>http.proxy.username</name>
  <value></value>
  <description>Username for proxy. This will be used by
  'protocol-httpclient', if the proxy server requests basic, digest
  and/or NTLM authentication. To use this, 'protocol-httpclient' must
  be present in the value of 'plugin.includes' property.
  NOTE: For NTLM authentication, do not prefix the username with the
  domain, i.e. 'susam' is correct whereas 'DOMAIN\susam' is incorrect.
  </description>
</property>

<property>
  <name>http.proxy.password</name>
  <value></value>
  <description>Password for proxy. This will be used by
  'protocol-httpclient', if the proxy server requests basic, digest
  and/or NTLM authentication. To use this, 'protocol-httpclient' must
  be present in the value of 'plugin.includes' property.
  </description>
</property>
于 2013-10-25T12:43:09.040 に答える
1

私はやや似たような問題に直面しました。同じかどうかはわかりません。ターミナルからこれらのパスを設定し、Nutch を実行しました。うまくいきました。Nutch では、その他の追加設定は行っていません。Ubuntu では動作しましたが、どういうわけか mac では動作しません。それが機能するかどうか教えてください。

    export http_proxy=http://server-ip:port/
    export http_proxy=http://127.0.0.1:8087/
    export http_proxy=http://proxy-server.mycorp.com:8087/
于 2012-07-09T21:30:12.270 に答える