“gora”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

916 参照

cassandra - ウェブクロール、ruby、python、cassandra

Webをクロールして、100万件のユーザー名または電子メールのレコードをデータベースに挿入するスクリプトを作成する必要があります。スクリプトは、python、ruby、phpなどの任意のタイプにすることができます。

可能かどうか教えてください。可能であれば、スクリプトの作成方法についての情報を提供してください。

ありがとう

2010-12-27T09:16:29.693

0 投票する

1 に答える

452 参照

java - 強羅とその特徴とは？

ゴラとは？それは私たちのために何をしますか？hbaseでどのように動作しますか? どのような機能がありますか? 私を助けることができる良いエッセイまたはウェブページを知っていますか?

java hbase gora

2011-03-01T11:13:29.603

0 投票する

1 に答える

757 参照

eclipse - カサンドラとnutch2.0

cassandraでnutch2.0を実行します。これはクロールの出力であり、TestGoreStorageの出力は次のとおりです。

cassandraをcassandra-cliに接続し、svnからnutchをチェックすることができます。gora.propertiesのエフェクト設定は次のとおりです。

およびgora-cassandra-mappingの構成：

210.44.138.8は私のクラスターのノードであり、クラスターの名前は「My Cluster」です。詳細：ファイアウォールを閉じ、Eclipseで実行します。誰かが私に助けをくれたらとても嬉しいです。

eclipse cassandra nutch gora

2012-09-17T10:44:49.423

0 投票する

0 に答える

310 参照

hadoop - Nutch2.0依存設定

展開モードで Nutch2.0 を使用して URL をクロールしています。

私はAntでNutchを構築します
Hadoop で Nutch-2.0.job を使用しました。

次のコマンドを実行しました。

sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.InjectorJob /user/bluesky/nutch/urls
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.GeneratorJob
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.fetcher.FetcherJob (batch -id)

しかし、最後のコマンドを実行すると、ログにエラーが表示されます:

hadoop nutch gora

2012-10-09T10:43:58.860

0 投票する

1 に答える

659 参照

java - Apache Gora - hbase データストアの作成中に java.net.MalformedURLException が発生する

バックエンドとして Gora-hbase を使用するプロジェクトを構築しています。Hbase が稼働しています。私は maven または ivy を使用していません。

また、 /conf/gora.properties で次を指定しました。

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore gora.datastore.autocreateschema=true

私のコードでは、次のコードを使用してデータストアを開始しています。

datastore = DataStoreFactory.getDataStore(long.class,UserDetails.class,new Configuration());

上記の行で次の例外が発生しています。

不足している、または認識していないものはありますか?
任意のヘルプや提案をいただければ幸いです。

java hbase gora

2013-02-05T07:27:18.827

0 投票する

1 に答える

2102 参照

java - Nutch 2.2.1 + hBase

クロール用に新しいバージョンの Apache Nutch を実行しようとしています。スクリプト /bin/crawl を開始すると失敗し、hadoop.log には次のように表示されます。

java.lang.Exception: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema; org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354) で原因: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema ; org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:177) で

ログは次のとおりです。

ivy.xml 内にいくつかの gora アーティファクトを設定する必要がありますか? 私を助けてください。

java hbase nutch gora

2013-07-04T14:23:14.133

0 投票する

1 に答える

635 参照

hadoop - Nutch を Hadoop モードで実行している間は、nutch gora クラスはありません

やってみると

次のエラーが表示されます...

誰かがエラーを修正するのを手伝ってくれますか?

hadoop nutch gora

2013-07-09T07:09:25.590

0 投票する

0 に答える

493 参照

hadoop - 実稼働用の Nut と HBase

現在、Nutch 2.2.1 と HBase 0.90.4 を使用しています。シード内の約 10 個の URL から約 30 万個の URL を期待しています。Nutch 1.6 を使用している間、私はすでに多くのことを生成しました。私はデータを操作したいので、Nutch 2.2.1 + HBase ルートを選びました。しかし、あらゆる種類の奇妙なエラーが発生し、クロールが進行していないようです。

次のようなさまざまなエラー:

Zookeeper.ClientCnxn - サーバーのセッション null、予期しないエラー、ソケット接続を閉じて再接続を試みています。- 私はこれをより頻繁に取得します
bin/crawl: 164 行目: 終了- フェッチステップでこのエラーが発生し、クロールが突然終了します。
RSS 解析エラー

オールインワンのクロールコマンドを使用しています -bin/crawl urls 1 http://localhost:8983/solr/ 10

どこが間違っているのか教えてください。Nutch サイトから推奨されるクイックスタートガイドに従って、 Nutch 2.2.1 をインストールし、HBase (スタンドアロン) をインストールしました。クイックスタートガイドリンクからの HBase 0.90.4 スタンドアロンセットアップに従うだけでは、300K のクロールされた URL を達成するのに十分かどうかはわかりません。

編集 # 1: RSS 解析エラー - ログ情報

エラー tika.TikaParser - 解析エラーhttp://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS 解析エラー

hadoop hbase nutch gora

2013-10-03T21:02:49.113

0 投票する

1 に答える

752 参照

solr - 統合 Nutch- Gora を使用した Hbase と Solr

私はnutch2チュートリアルに従い、nutchをHBaseと正常に統合しました。私の問題は、ディレクトリで次のコマンドを使用してURLをクロールするとき ./nutch crawl urls/seed.txt abc -depth 50 -topN 50ですruntime/local/bin。

エラーが発生：

解決策を教えてください。どんな解決策でも大歓迎です。

solr hbase nutch gora

2013-10-18T07:04:29.823

問題タブ [gora]

Reference