問題タブ [gora]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
341 参照

cassandra - scala nutch gora-cassandra - RuntimeException: ジョブが失敗しました

Nutch を実行して、クロールしたデータを Cassandra にロードしようとしています。

私は自分のsbtファイルを持っています

そして仕事を始めています

しかし、ややあいまいなエラー EDIT - 要求の開始から完全なログに更新されます

Cassandra では、エラーがスローされる前にkeyspaceWeb ページとテーブルsc p fが作成されています。

編集 --- lib フォルダーに以下の jar をすべて (長いリストで申し訳ありません) 配置すると、ジョブが実行されます。最初のいくつかのログは cassandra への接続に関するものです。SBT の依存関係を使用しようとしているときに、これらのログが表示されません。

以下の jar ファイルで実行した場合のログ:

Jar ファイルの完全なリスト

ありがとう、ブレント

0 投票する
1 に答える
840 参照

cassandra - Cassandra をストレージとして使用する Nutch 2 がデータを適切にクロールしていない

Cassandra をストレージとして使用する Nutch 2.x を使用しています。現在、私は 1 つの Web サイトのみをクロールしており、データはバイト コード形式で Cassandra に読み込まれています。Nutch で readdb コマンドを使用すると、有用なクロール データが得られました。

以下は、私が得ているさまざまなファイルと出力の詳細です。

========== クローラーを実行するコマンド =====================

======================== seed.txt データ ====================== ====

=== cassandra webpage.f table からデータを読み取る readdb コマンドの出力======

=============== regex-urlfilter.txt の内容 ======================

===========気になるログファイルの内容 ======================

さらに情報が必要な場合はお知らせください。誰か助けてくれませんか?

前もって感謝します。-スマント

0 投票する
1 に答える
79 参照

apache - Apache Gora 0.5 ですべてのテーブル レコードを取得する最良の方法

私は知っている

似たようなものはありませんか

クエリの作成中に Apache Gora で実行すると、すべての結果セットが返されます。

編集* 何も設定せずにプログラムを実行しました。それでも、結果セットは null です。

0 投票する
2 に答える
992 参照

web-crawler - Nutch 2.3 がクロール データを Cassandra に正しく保存しない

Cassandra バックエンドを備えた Nutch 2.3 を使用して、ほとんどがデフォルトのオプションでクロールを実行しています。シード リストとして 71 個の URL を持つファイルが使用され、次のコマンドでクロールしています。

キーは Cassandra に保存され、f、p、および sc カラム ファミリーが作成されますが、WebPage オブジェクトを読み込もうとすると、フェッチ ジョブとパーサー ジョブが実行されたと思われる出力にもかかわらず、コンテンツ フィールドとテキスト フィールドが空になります。

さらに、 db.update.additions.allowedのデフォルト値がtrueであるにもかかわらず、新しいリンクはリンク db に追加されません。

完了したら、以下のコードでクロール データを読み込んでみます。これは、一部のフィールドが入力されていることのみを示しています。FetcherJob と ParserJob のコードを見ると、コンテンツフィールドまたはテキストフィールドを空にする理由がわかりません。おそらくいくつかの基本的な設定が欠けていますが、私の問題をグーグルで調べても何も得られませんでした。ParserMapper と FetcherMapper にもブレークポイントを設定しましたが、実行されているようです。

フェッチ/解析されたコンテンツをNutch 2でCassandraに保存する方法を知っている人はいますか?

そして、ここに私のnutch-site.xmlがあります:

編集

Cassandra 2.0.12 を使用していましたが、2.0.2 で試してみたところ、問題は解決しませんでした。だから私が使用しているバージョン:

  • Nutch: 2.3 (タグ "release-2.3" でチェックアウトされた git clone)
  • 強羅: 0.5 in ナット
  • カサンドラ: 2.0.2

result.get ()dataStore.get(result.getKey())に変更すると、一部のフィールドが実際に入力されましたが、コンテンツとテキストはまだ空です。

いくつかの出力:

0 投票する
1 に答える
470 参照

mongodb - Gora MongoDb例外、Utf8をシリアライズできません

mongoDB で Nutch 2.3 を動作させようとしていますが、次の例外が発生します。

この問題に関連する次のチケットを見つけました。これには、nutch 2.3 で解決する必要があると書かれています: https://issues.apache.org/jira/browse/NUTCH-1843

https://issues.apache.org/jira/browse/GORA-388で、この問題が Gora 0.6 で実際に解決されていることを示す Gora プロジェクトの別のチケットがあります。ただし、Nutch 2.3 は gora 0.5 を使用します。したがって、この問題が Nutch 2.3 でどのように解決されるかはわかりません。

MongoDB を使用したいのですが、問題を解決できないようです。この問題についての洞察を持っている人はいますか? 構成の問題ですか?

0 投票する
0 に答える
487 参照

solr - Solr バックエンドで Nutch 2.x と Gora を使用できますか

Nutch 2.x ブランチgora.propertiesファイルには、Nutch の可能なバックエンドとして Solr がリストされていますが、オンラインでドキュメントを見つけることができません。だから、2つの質問:

  1. これを行うことはできますか:Nutch -> Gora -> Solrストレージとインデックス作成の両方に SOLR を使用できますか? この特定のセットアップに関するドキュメントが見つかりません。

  2. これを行う利点はありますか: Nutch -> Gora -> HBase -> SolrSolr は HBase のインデックス作成にのみ使用されます。これは最も一般的なアプローチのようですが、主な目的が Solr で結果を使用することである場合、HBase は不要のようです。

2.x gora.propertiesは次のとおりです。

0 投票する
1 に答える
437 参照

hsqldb - HSQL 2.3.3 で Nutch 2.3 を構成する - ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream

libの下にすべてのavro関連のjarファイルがありますが、HSQLDBでapache Nutchを実行すると ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream が発生します

これは私がしたことです:

  1. HSQLDBを起動して実行しました

    /li>
  2. 構成された ivy/ivy.xml

ivy.xml の以下の行のコメントを解除

以下の行のコメントを外します conf/gora.properites

  1. ランアリビルド

    /li>
  2. nutch-site.xml の設定を追加しました

    /li>
  3. urls フォルダーの下にseed.txtを作成

  4. URLを挿入してナットを実行しました

    /li>