問題タブ [gora]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - scala nutch gora-cassandra - RuntimeException: ジョブが失敗しました
Nutch を実行して、クロールしたデータを Cassandra にロードしようとしています。
私は自分のsbtファイルを持っています
そして仕事を始めています
しかし、ややあいまいなエラー EDIT - 要求の開始から完全なログに更新されます
Cassandra では、エラーがスローされる前にkeyspace
Web ページとテーブルsc p f
が作成されています。
編集 --- lib フォルダーに以下の jar をすべて (長いリストで申し訳ありません) 配置すると、ジョブが実行されます。最初のいくつかのログは cassandra への接続に関するものです。SBT の依存関係を使用しようとしているときに、これらのログが表示されません。
以下の jar ファイルで実行した場合のログ:
Jar ファイルの完全なリスト
ありがとう、ブレント
cassandra - Cassandra をストレージとして使用する Nutch 2 がデータを適切にクロールしていない
Cassandra をストレージとして使用する Nutch 2.x を使用しています。現在、私は 1 つの Web サイトのみをクロールしており、データはバイト コード形式で Cassandra に読み込まれています。Nutch で readdb コマンドを使用すると、有用なクロール データが得られました。
以下は、私が得ているさまざまなファイルと出力の詳細です。
========== クローラーを実行するコマンド =====================
======================== seed.txt データ ====================== ====
=== cassandra webpage.f table からデータを読み取る readdb コマンドの出力======
=============== regex-urlfilter.txt の内容 ======================
===========気になるログファイルの内容 ======================
さらに情報が必要な場合はお知らせください。誰か助けてくれませんか?
前もって感謝します。-スマント
apache - Apache Gora 0.5 ですべてのテーブル レコードを取得する最良の方法
私は知っている
似たようなものはありませんか
クエリの作成中に Apache Gora で実行すると、すべての結果セットが返されます。
編集* 何も設定せずにプログラムを実行しました。それでも、結果セットは null です。
web-crawler - Nutch 2.3 がクロール データを Cassandra に正しく保存しない
Cassandra バックエンドを備えた Nutch 2.3 を使用して、ほとんどがデフォルトのオプションでクロールを実行しています。シード リストとして 71 個の URL を持つファイルが使用され、次のコマンドでクロールしています。
キーは Cassandra に保存され、f、p、および sc カラム ファミリーが作成されますが、WebPage オブジェクトを読み込もうとすると、フェッチ ジョブとパーサー ジョブが実行されたと思われる出力にもかかわらず、コンテンツ フィールドとテキスト フィールドが空になります。
さらに、 db.update.additions.allowedのデフォルト値がtrueであるにもかかわらず、新しいリンクはリンク db に追加されません。
完了したら、以下のコードでクロール データを読み込んでみます。これは、一部のフィールドが入力されていることのみを示しています。FetcherJob と ParserJob のコードを見ると、コンテンツフィールドまたはテキストフィールドを空にする理由がわかりません。おそらくいくつかの基本的な設定が欠けていますが、私の問題をグーグルで調べても何も得られませんでした。ParserMapper と FetcherMapper にもブレークポイントを設定しましたが、実行されているようです。
フェッチ/解析されたコンテンツをNutch 2でCassandraに保存する方法を知っている人はいますか?
そして、ここに私のnutch-site.xmlがあります:
編集
Cassandra 2.0.12 を使用していましたが、2.0.2 で試してみたところ、問題は解決しませんでした。だから私が使用しているバージョン:
- Nutch: 2.3 (タグ "release-2.3" でチェックアウトされた git clone)
- 強羅: 0.5 in ナット
- カサンドラ: 2.0.2
result.get ()をdataStore.get(result.getKey())に変更すると、一部のフィールドが実際に入力されましたが、コンテンツとテキストはまだ空です。
いくつかの出力:
mongodb - Gora MongoDb例外、Utf8をシリアライズできません
mongoDB で Nutch 2.3 を動作させようとしていますが、次の例外が発生します。
この問題に関連する次のチケットを見つけました。これには、nutch 2.3 で解決する必要があると書かれています: https://issues.apache.org/jira/browse/NUTCH-1843
https://issues.apache.org/jira/browse/GORA-388で、この問題が Gora 0.6 で実際に解決されていることを示す Gora プロジェクトの別のチケットがあります。ただし、Nutch 2.3 は gora 0.5 を使用します。したがって、この問題が Nutch 2.3 でどのように解決されるかはわかりません。
MongoDB を使用したいのですが、問題を解決できないようです。この問題についての洞察を持っている人はいますか? 構成の問題ですか?
solr - Solr バックエンドで Nutch 2.x と Gora を使用できますか
Nutch 2.x ブランチgora.properties
ファイルには、Nutch の可能なバックエンドとして Solr がリストされていますが、オンラインでドキュメントを見つけることができません。だから、2つの質問:
これを行うことはできますか:
Nutch -> Gora -> Solr
ストレージとインデックス作成の両方に SOLR を使用できますか? この特定のセットアップに関するドキュメントが見つかりません。これを行う利点はありますか:
Nutch -> Gora -> HBase -> Solr
Solr は HBase のインデックス作成にのみ使用されます。これは最も一般的なアプローチのようですが、主な目的が Solr で結果を使用することである場合、HBase は不要のようです。
2.x gora.propertiesは次のとおりです。
hsqldb - HSQL 2.3.3 で Nutch 2.3 を構成する - ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream
libの下にすべてのavro関連のjarファイルがありますが、HSQLDBでapache Nutchを実行すると ClassNotFoundException : org/apache/avro/ipc/ByteBufferOutputStream が発生します
これは私がしたことです:
HSQLDBを起動して実行しました
/li>構成された ivy/ivy.xml
ivy.xml の以下の行のコメントを解除
と
以下の行のコメントを外します conf/gora.properites
ランアリビルド
/li>nutch-site.xml の設定を追加しました
/li>urls フォルダーの下にseed.txtを作成
URLを挿入してナットを実行しました
/li>