問題タブ [gora]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
291 参照

storage - バックエンドストレージとしてプレーンファイルシステムで Nutch 2.x と Apache Gora を使用することは可能ですか?

Nutch 2.x と Apache Gora™ をプレーン ファイルシステムでバックエンド ストレージとして使用することはできますか?

公式サイトは次のように述べています。

Nutch 2.x: 1.x から直接インスピレーションを得た新たな代替案ですが、1 つの重要な領域が異なります。ストレージは、Apache Gora™ を使用してオブジェクトから永続的なマッピングを処理することにより、特定の基礎となるデータ ストアから抽象化されます。

Nutch の最新バージョン (現在は 2.1) を使用したいのですが、現在ストレージ用に nosql または rdbms バックエンドを使用して複雑なバックエンドをセットアップしたくありません。後でバックエンド ストレージを選択したい。

ファイルシステムを Gora のストレージとして使用するためのドキュメントは見つかりませんでした。出来ますか?

0 投票する
1 に答える
386 参照

avro - Array/HashMap の Accumulo Gora マッピング

Avro JSON 仕様 (Gora にバンドルされています) を使用して、Apache Gora を ORM として Accumulo と統合できます。String 、 Integer などのプリミティブ データ型を使用すると問題なく動作しますが、データ型を Array または Map として定義するとエラーが発生します。

Array の場合、新しい要素を追加しようとすると、Gora は次のエラーをスローします。

"org.apache.gora.persistency.ListGenericArray.add(Ljava/lang/Object;)Z"

Map を使用すると、エラーは発生しませんが、コミット後に空の JSON オブジェクト '{}' が表示されます... キーと値のペアがありません。

これは私のJSON仕様がどのように見えるかです

これは Accumulo-Gora xml マッピングです

Accumulo バージョン 1.5 と Gora バージョン 0.3 を使用しています。Accumulo バージョン 1.4.4 でも試しましたが、同じ問題に直面しています。

Gora が Map または Array データ型をサポートしているかどうかはわかりません。複雑なデータ型を同等の JSON 形式に変換し、それを Char Sequence として Accumulo に格納する必要があると思います。

何か案は ?

0 投票する
0 に答える
139 参照

hbase - Nutch のパーサー ジョブを使用して、特定のページで参照されているすべてのアウトリンクを page with page で取得する方法

私はnutch2.2とhbase 0.94とgora 0.4を使用しており、次の手順を実行しているとき

特定のページのhtmlコンテンツを取得します([ http://www.flipkart.com/mens-clothing/t-Shirts?otracker=hp_nmenu_sub_men_0_T-Shirts] )が、ステップ4を実行しているとき

webpagehbaseで作成されたテーブルを参照してくださいol(outlink)列ファミリーがありますが、空です

誰かが助けてくれれば、すべてのアウトリンクを取得できれば、私にとって良いことです。

前もって感謝します

0 投票する
1 に答える
923 参照

hbase - Hadoop2 で Nutch2 を実行できない (Nutch 2.x + Hadoop 2.4.0 + HBase 0.94.18 + Gora 0.5 + Avro 1.7.6)

上記の構成 (subj) で EMR 用の Nutch 2.3 をインストールする必要があります。

ローカル コンピューターで実行:

  1. ナット 2.x

1.1 svn 現在の 2.x バージョン

1.2. 準備されたスクリプト:

1.2.1 ツタ:

1.2.2 デフォルトのプロパティ:

1.3。追加した

ProtocolStatus.java、ParseStatus.java、Host.java、WebPage.java に。

  1. HBase

2.1 svn HBase 0.94.18

2.2 は Protobuf 2.5.0 用に準備されました。これも Dobromyslov のおかげです [ https://github.com/dobromyslov ]

2.3 は hbase-0.94.18-hadoop-2.4.0.jar も生成しました

  1. Gora 0.5 (com.argonio.gora のバージョン 0.4、0.6-SNAPSHOT、および 0.5.3 についてもテスト済み)

  2. Avro 1.7.6 (バージョン 1.7.4、1.7.7 でもプレイ可能)

4.1svn

AVRO-813用に4.2パッチ適用

4.3 は AVRO-882 用にパッチが適用され、ロールバックされました

[1] のようにパッチを適用した 4.4 - EOFException のスローについてコメント

多くの例外の後、Nutch 2.x と Avro 1.7.6 でいくつかの変更が加えられました。

Nutch は少し走っているように見えますが、不安定で正しくありません。

サイクル (inject、generate、fetch、parse、updatedb) は通過しましたが、一部の機能が壊れていて無視されています。

Nutch と HBase 間の通常のデータ交換 (gora と avro も) を壊したようです。一部のフィールド (および/または一部のデータ形式) の読み取りと書き込みが正しくありません。多くのマーカーが失われます (コードで一時的にエミュレートされます)。batchId フィールドのデータは失われます。スコアリングも壊れています。

助けてください!すべての差分と例外トレースを公開する準備ができました。

[1] http://mail-archives.apache.org/mod_mbox/nutch-user/201409.mbox/%3cCAEmTxX9HrRM00SxerFAdRdZy=wVAd9xCchDTuLaxPQ=wi0QEsw@mail.gmail.com%3e

0 投票する
0 に答える
204 参照

hadoop - gora0.5 と mongodb をバックエンド データストアとして使用して、hadoop2.4.0 で nutch2.3-snapshot を実行できない

私は数日間この問題に直面しています。hadoop1.2 を使用すると、問題なく動作します。hadoop2.x (hadoop2.4 または hadoop2.5.2) に目を向けると、次の問題が発生します。

で hadoop2.x を使用するivy.xmlと、自動的に が生成されることがわかりました。これはhadoop-core-1.0.1.jar、gora の依存関係の影響を受けているようです。hadoop-core-* を除外すると、この問題が発生します。また、jar ファイルavro-mapre-1.7.6.jaravro-mapred-1.7.6-hadoop2.jar手動で更新しましたが、残念ながら何も変わりません! 任意のアイデアをいただければ幸いです、thx!

0 投票する
3 に答える
786 参照

java - Nutch + HBase: hbase バージョンの問題と Java 例外

Debian Squeeze で HBase 0.94.14 を使用して Nutch 2.2.1 をセットアップしようとしています。Nutch 1 と 2 のチュートリアルとさまざまなドキュメントに注意深く従いました。HBase 0.94.14 をビルドでき、最終的に動作するようになりました (テーブルなどを作成できます)。Nutch を問題なくビルドできました (Gora 0.3 に設定されています)。

現在の問題は次のとおりです。1- Nutch を起動しようとすると、次のトレースが表示されます。

strace -f を使用すると、「HBaseStore.class」が見つからないことがわかりました。

クラスパスに問題があるかどうかを調べようとしましたが、最終的に次のことがわかりました: : hbase-0.90.4.jar

私が見つけたいくつかのオンライン ディスカッションによると、nutch ツリーの hbase-0.90.4.jar を hbase ツリーの hbase-0.94.4 に置き換えます...

しかし: - Java の問題は修正されません - Nutch を再構築するたびに、hbase-0.90.4.jar が戻ってきて、nutch ツリーでそのソースを見つけることができません :-/

/root/nutch/apache-nutch-2.2.1/conf/hbase-site.xml には以下があることに注意してください。

これは Nutch 0.94.4 に対応します ...

また、Gora 0.5 を再ビルドして使用しようとしましたが、Nutch のビルドが失敗します。

私は Java の専門家ではありません。Nutch が正しいバージョンの HBase を使用していない理由、ソースと Java クラスが欠落しているように見える理由がわかりません。この時点で完全に立ち往生しています。なんて混乱。

この状況を救うのに役立つヒントをありがとう。