問題タブ [gora]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
916 参照

cassandra - ウェブクロール、ruby、python、cassandra

Webをクロールして、100万件のユーザー名または電子メールのレコードをデータベースに挿入するスクリプトを作成する必要があります。スクリプトは、python、ruby、phpなどの任意のタイプにすることができます。

可能かどうか教えてください。可能であれば、スクリプトの作成方法についての情報を提供してください。

ありがとう

0 投票する
1 に答える
452 参照

java - 強羅とその特徴とは?

ゴラとは?それは私たちのために何をしますか?hbaseでどのように動作しますか? どのような機能がありますか? 私を助けることができる良いエッセイまたはウェブページを知っていますか?

0 投票する
1 に答える
757 参照

eclipse - カサンドラとnutch2.0

cassandraでnutch2.0を実行します。これはクロールの出力であり、TestGoreStorageの出力は次のとおりです。

cassandraをcassandra-cliに接続し、svnからnutchをチェックすることができます。gora.propertiesのエフェクト設定は次のとおりです。

およびgora-cassandra-mappingの構成:

210.44.138.8は私のクラスターのノードであり、クラスターの名前は「My Cluster」です。詳細:ファイアウォールを閉じ、Eclipseで実行します。誰かが私に助けをくれたらとても嬉しいです。

0 投票する
0 に答える
310 参照

hadoop - Nutch2.0依存設定

展開モードで Nutch2.0 を使用して URL をクロールしています。

  1. 私はAntでNutchを構築します
  2. Hadoop で Nutch-2.0.job を使用しました。

次のコマンドを実行しました。

  1. sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.InjectorJob /user/bluesky/nutch/urls

  2. sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.GeneratorJob

  3. sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.fetcher.FetcherJob (batch -id)

しかし、最後のコマンドを実行すると、ログにエラーが表示されます:

0 投票する
1 に答える
659 参照

java - Apache Gora - hbase データストアの作成中に java.net.MalformedURLException が発生する

バックエンドとして Gora-hbase を使用するプロジェクトを構築しています。Hbase が稼働しています。私は maven または ivy を使用していません。

また、 /conf/gora.properties で次を指定しました。

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore gora.datastore.autocreateschema=true

私のコードでは、次のコードを使用してデータストアを開始しています。

datastore = DataStoreFactory.getDataStore(long.class,UserDetails.class,new Configuration());

上記の行で次の例外が発生しています。

不足している、または認識していないものはありますか?
任意のヘルプや提案をいただければ幸いです。

0 投票する
1 に答える
2102 参照

java - Nutch 2.2.1 + hBase

クロール用に新しいバージョンの Apache Nutch を実行しようとしています。スクリプト /bin/crawl を開始すると失敗し、hadoop.log には次のように表示されます。

java.lang.Exception: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema; org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354) で原因: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema ; org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:177) で

ログは次のとおりです。

ivy.xml 内にいくつかの gora アーティファクトを設定する必要がありますか? 私を助けてください。

0 投票する
1 に答える
635 参照

hadoop - Nutch を Hadoop モードで実行している間は、nutch gora クラスはありません

やってみると

次のエラーが表示されます...

誰かがエラーを修正するのを手伝ってくれますか?

0 投票する
0 に答える
493 参照

hadoop - 実稼働用の Nut と HBase

現在、Nutch 2.2.1 と HBase 0.90.4 を使用しています。シード内の約 10 個の URL から約 30 万個の URL を期待しています。Nutch 1.6 を使用している間、私はすでに多くのことを生成しました。私はデータを操作したいので、Nutch 2.2.1 + HBase ルートを選びました。しかし、あらゆる種類の奇妙なエラーが発生し、クロールが進行していないようです。

次のようなさまざまなエラー:

  1. Zookeeper.ClientCnxn - サーバーのセッション null、予期しないエラー、ソケット接続を閉じて再接続を試みています。- 私はこれをより頻繁に取得します

  2. bin/crawl: 164 行目: 終了- フェッチ ステップでこのエラーが発生し、クロールが突然終了します。

  3. RSS 解析エラー

オールインワンのクロール コマンドを使用しています -bin/crawl urls 1 http://localhost:8983/solr/ 10

どこが間違っているのか教えてください。Nutch サイトから推奨されるクイック スタート ガイドに従って、 Nutch 2.2.1 をインストールし、HBase (スタンドアロン) をインストールしました。クイックスタート ガイド リンクからの HBase 0.90.4 スタンドアロン セットアップに従うだけでは、300K のクロールされた URL を達成するのに十分かどうかはわかりません。


編集 # 1: RSS 解析エラー - ログ情報

エラー tika.TikaParser - 解析エラーhttp://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS 解析エラー

0 投票する
1 に答える
752 参照

solr - 統合 Nutch- Gora を使用した Hbase と Solr

私はnutch2チュートリアルに従い、nutchをHBaseと正常に統合しました。私の問題は、ディレクトリで次のコマンドを使用してURLをクロールするとき ./nutch crawl urls/seed.txt abc -depth 50 -topN 50ですruntime/local/bin

エラーが発生 :

解決策を教えてください。どんな解決策でも大歓迎です。