1

上記の構成 (subj) で EMR 用の Nutch 2.3 をインストールする必要があります。

ローカル コンピューターで実行:

  1. ナット 2.x

1.1 svn 現在の 2.x バージョン

1.2. 準備されたスクリプト:

1.2.1 ツタ:

    依存関係 org="org.apache.hadoop" name="hadoop-common" rev="2.4.0"
    依存関係 org="org.apache.hadoop" name="hadoop-mapreduce-client-core" rev="2.4.0"
    依存関係 org="org.apache.gora" name="強羅" rev="0.5"  
    依存関係 org="org.apache.gora" name="gora-hbase" rev="0.5"

1.2.2 デフォルトのプロパティ:

hadoop.version=2.4.0
version=2.3-SNAPSHOT

1.3。追加した

public int getFieldsCount() { return Field.values().length; }

ProtocolStatus.java、ParseStatus.java、Host.java、WebPage.java に。

  1. HBase

2.1 svn HBase 0.94.18

2.2 は Protobuf 2.5.0 用に準備されました。これも Dobromyslov のおかげです [ https://github.com/dobromyslov ]

2.3 は hbase-0.94.18-hadoop-2.4.0.jar も生成しました

  1. Gora 0.5 (com.argonio.gora のバージョン 0.4、0.6-SNAPSHOT、および 0.5.3 についてもテスト済み)

  2. Avro 1.7.6 (バージョン 1.7.4、1.7.7 でもプレイ可能)

4.1svn

AVRO-813用に4.2パッチ適用

4.3 は AVRO-882 用にパッチが適用され、ロールバックされました

[1] のようにパッチを適用した 4.4 - EOFException のスローについてコメント

org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473),

多くの例外の後、Nutch 2.x と Avro 1.7.6 でいくつかの変更が加えられました。

Nutch は少し走っているように見えますが、不安定で正しくありません。

サイクル (inject、generate、fetch、parse、updatedb) は通過しましたが、一部の機能が壊れていて無視されています。

Nutch と HBase 間の通常のデータ交換 (gora と avro も) を壊したようです。一部のフィールド (および/または一部のデータ形式) の読み取りと書き込みが正しくありません。多くのマーカーが失われます (コードで一時的にエミュレートされます)。batchId フィールドのデータは失われます。スコアリングも壊れています。

助けてください!すべての差分と例外トレースを公開する準備ができました。

[1] http://mail-archives.apache.org/mod_mbox/nutch-user/201409.mbox/%3cCAEmTxX9HrRM00SxerFAdRdZy=wVAd9xCchDTuLaxPQ=wi0QEsw@mail.gmail.com%3e

4

1 に答える 1