“gora”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

341 参照

cassandra - scala nutch gora-cassandra - RuntimeException: ジョブが失敗しました

Nutch を実行して、クロールしたデータを Cassandra にロードしようとしています。

私は自分のsbtファイルを持っています

そして仕事を始めています

しかし、ややあいまいなエラー EDIT - 要求の開始から完全なログに更新されます

Cassandra では、エラーがスローされる前にkeyspaceWeb ページとテーブルsc p fが作成されています。

編集 --- lib フォルダーに以下の jar をすべて (長いリストで申し訳ありません) 配置すると、ジョブが実行されます。最初のいくつかのログは cassandra への接続に関するものです。SBT の依存関係を使用しようとしているときに、これらのログが表示されません。

以下の jar ファイルで実行した場合のログ:

Jar ファイルの完全なリスト

ありがとう、ブレント

2014-12-09T13:53:10.427

0 投票する

1 に答える

840 参照

cassandra - Cassandra をストレージとして使用する Nutch 2 がデータを適切にクロールしていない

Cassandra をストレージとして使用する Nutch 2.x を使用しています。現在、私は 1 つの Web サイトのみをクロールしており、データはバイトコード形式で Cassandra に読み込まれています。Nutch で readdb コマンドを使用すると、有用なクロールデータが得られました。

以下は、私が得ているさまざまなファイルと出力の詳細です。

========== クローラーを実行するコマンド =====================

======================== seed.txt データ ====================== ====

=== cassandra webpage.f table からデータを読み取る readdb コマンドの出力======

=============== regex-urlfilter.txt の内容 ======================

===========気になるログファイルの内容 ======================

さらに情報が必要な場合はお知らせください。誰か助けてくれませんか？

前もって感謝します。-スマント

cassandra web-crawler nutch gora

2015-02-19T19:40:30.713

0 投票する

1 に答える

79 参照

apache - Apache Gora 0.5 ですべてのテーブルレコードを取得する最良の方法

私は知っている

似たようなものはありませんか

クエリの作成中に Apache Gora で実行すると、すべての結果セットが返されます。

編集* 何も設定せずにプログラムを実行しました。それでも、結果セットは null です。

apache hbase gora

2015-03-01T15:56:31.093

0 投票する

2 に答える

992 参照

web-crawler - Nutch 2.3 がクロールデータを Cassandra に正しく保存しない

Cassandra バックエンドを備えた Nutch 2.3 を使用して、ほとんどがデフォルトのオプションでクロールを実行しています。シードリストとして 71 個の URL を持つファイルが使用され、次のコマンドでクロールしています。

キーは Cassandra に保存され、f、p、および sc カラムファミリーが作成されますが、WebPage オブジェクトを読み込もうとすると、フェッチジョブとパーサージョブが実行されたと思われる出力にもかかわらず、コンテンツフィールドとテキストフィールドが空になります。

さらに、 db.update.additions.allowedのデフォルト値がtrueであるにもかかわらず、新しいリンクはリンク db に追加されません。

完了したら、以下のコードでクロールデータを読み込んでみます。これは、一部のフィールドが入力されていることのみを示しています。FetcherJob と ParserJob のコードを見ると、コンテンツフィールドまたはテキストフィールドを空にする理由がわかりません。おそらくいくつかの基本的な設定が欠けていますが、私の問題をグーグルで調べても何も得られませんでした。ParserMapper と FetcherMapper にもブレークポイントを設定しましたが、実行されているようです。

フェッチ/解析されたコンテンツをNutch 2でCassandraに保存する方法を知っている人はいますか?

そして、ここに私のnutch-site.xmlがあります：

編集

Cassandra 2.0.12 を使用していましたが、2.0.2 で試してみたところ、問題は解決しませんでした。だから私が使用しているバージョン：

Nutch: 2.3 (タグ "release-2.3" でチェックアウトされた git clone)
強羅: 0.5 in ナット
カサンドラ: 2.0.2

result.get ()をdataStore.get(result.getKey())に変更すると、一部のフィールドが実際に入力されましたが、コンテンツとテキストはまだ空です。

いくつかの出力:

web-crawler nutch gora

2015-03-02T15:41:09.137

0 投票する

1 に答える

470 参照

mongodb - Gora MongoDb例外、Utf8をシリアライズできません

mongoDB で Nutch 2.3 を動作させようとしていますが、次の例外が発生します。

この問題に関連する次のチケットを見つけました。これには、nutch 2.3 で解決する必要があると書かれています: https://issues.apache.org/jira/browse/NUTCH-1843

https://issues.apache.org/jira/browse/GORA-388で、この問題が Gora 0.6 で実際に解決されていることを示す Gora プロジェクトの別のチケットがあります。ただし、Nutch 2.3 は gora 0.5 を使用します。したがって、この問題が Nutch 2.3 でどのように解決されるかはわかりません。

MongoDB を使用したいのですが、問題を解決できないようです。この問題についての洞察を持っている人はいますか? 構成の問題ですか？

mongodb nutch gora

2015-06-05T09:03:42.473

0 投票する

0 に答える

487 参照

solr - Solr バックエンドで Nutch 2.x と Gora を使用できますか

Nutch 2.x ブランチgora.propertiesファイルには、Nutch の可能なバックエンドとして Solr がリストされていますが、オンラインでドキュメントを見つけることができません。だから、2つの質問：

これを行うことはできますか:Nutch -> Gora -> Solrストレージとインデックス作成の両方に SOLR を使用できますか? この特定のセットアップに関するドキュメントが見つかりません。
これを行う利点はありますか: Nutch -> Gora -> HBase -> SolrSolr は HBase のインデックス作成にのみ使用されます。これは最も一般的なアプローチのようですが、主な目的が Solr で結果を使用することである場合、HBase は不要のようです。

2.x gora.propertiesは次のとおりです。

solr nutch gora

2015-09-19T21:52:54.107

0 投票する

1 に答える

437 参照

hsqldb - HSQL 2.3.3 で Nutch 2.3 を構成する - ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream

libの下にすべてのavro関連のjarファイルがありますが、HSQLDBでapache Nutchを実行すると ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream が発生します

これは私がしたことです：

HSQLDBを起動して実行しました
/li>
構成された ivy/ivy.xml

ivy.xml の以下の行のコメントを解除

と

以下の行のコメントを外します conf/gora.properites

ランアリビルド
/li>
nutch-site.xml の設定を追加しました
/li>
urls フォルダーの下にseed.txtを作成
URLを挿入してナットを実行しました
/li>

hsqldb nutch avro gora

2015-12-26T15:41:05.060

問題タブ [gora]

Reference