上記の構成 (subj) で EMR 用の Nutch 2.3 をインストールする必要があります。
ローカル コンピューターで実行:
- ナット 2.x
1.1 svn 現在の 2.x バージョン
1.2. 準備されたスクリプト:
1.2.1 ツタ:
依存関係 org="org.apache.hadoop" name="hadoop-common" rev="2.4.0" 依存関係 org="org.apache.hadoop" name="hadoop-mapreduce-client-core" rev="2.4.0" 依存関係 org="org.apache.gora" name="強羅" rev="0.5" 依存関係 org="org.apache.gora" name="gora-hbase" rev="0.5"
1.2.2 デフォルトのプロパティ:
hadoop.version=2.4.0
version=2.3-SNAPSHOT
1.3。追加した
public int getFieldsCount() { return Field.values().length; }
ProtocolStatus.java、ParseStatus.java、Host.java、WebPage.java に。
- HBase
2.1 svn HBase 0.94.18
2.2 は Protobuf 2.5.0 用に準備されました。これも Dobromyslov のおかげです [ https://github.com/dobromyslov ]
2.3 は hbase-0.94.18-hadoop-2.4.0.jar も生成しました
Gora 0.5 (com.argonio.gora のバージョン 0.4、0.6-SNAPSHOT、および 0.5.3 についてもテスト済み)
Avro 1.7.6 (バージョン 1.7.4、1.7.7 でもプレイ可能)
4.1svn
AVRO-813用に4.2パッチ適用
4.3 は AVRO-882 用にパッチが適用され、ロールバックされました
[1] のようにパッチを適用した 4.4 - EOFException のスローについてコメント
org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473),
等
多くの例外の後、Nutch 2.x と Avro 1.7.6 でいくつかの変更が加えられました。
Nutch は少し走っているように見えますが、不安定で正しくありません。
サイクル (inject、generate、fetch、parse、updatedb) は通過しましたが、一部の機能が壊れていて無視されています。
Nutch と HBase 間の通常のデータ交換 (gora と avro も) を壊したようです。一部のフィールド (および/または一部のデータ形式) の読み取りと書き込みが正しくありません。多くのマーカーが失われます (コードで一時的にエミュレートされます)。batchId フィールドのデータは失われます。スコアリングも壊れています。
助けてください!すべての差分と例外トレースを公開する準備ができました。