問題タブ [gora]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - ウェブクロール、ruby、python、cassandra
Webをクロールして、100万件のユーザー名または電子メールのレコードをデータベースに挿入するスクリプトを作成する必要があります。スクリプトは、python、ruby、phpなどの任意のタイプにすることができます。
可能かどうか教えてください。可能であれば、スクリプトの作成方法についての情報を提供してください。
ありがとう
java - 強羅とその特徴とは?
ゴラとは?それは私たちのために何をしますか?hbaseでどのように動作しますか? どのような機能がありますか? 私を助けることができる良いエッセイまたはウェブページを知っていますか?
eclipse - カサンドラとnutch2.0
cassandraでnutch2.0を実行します。これはクロールの出力であり、TestGoreStorageの出力は次のとおりです。
cassandraをcassandra-cliに接続し、svnからnutchをチェックすることができます。gora.propertiesのエフェクト設定は次のとおりです。
およびgora-cassandra-mappingの構成:
210.44.138.8は私のクラスターのノードであり、クラスターの名前は「My Cluster」です。詳細:ファイアウォールを閉じ、Eclipseで実行します。誰かが私に助けをくれたらとても嬉しいです。
hadoop - Nutch2.0依存設定
展開モードで Nutch2.0 を使用して URL をクロールしています。
- 私はAntでNutchを構築します
- Hadoop で Nutch-2.0.job を使用しました。
次のコマンドを実行しました。
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.InjectorJob /user/bluesky/nutch/urls
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.GeneratorJob
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.fetcher.FetcherJob (batch -id)
しかし、最後のコマンドを実行すると、ログにエラーが表示されます:
java - Apache Gora - hbase データストアの作成中に java.net.MalformedURLException が発生する
バックエンドとして Gora-hbase を使用するプロジェクトを構築しています。Hbase が稼働しています。私は maven または ivy を使用していません。
また、 /conf/gora.properties で次を指定しました。
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore gora.datastore.autocreateschema=true
私のコードでは、次のコードを使用してデータストアを開始しています。
datastore = DataStoreFactory.getDataStore(long.class,UserDetails.class,new Configuration());
上記の行で次の例外が発生しています。
不足している、または認識していないものはありますか?
任意のヘルプや提案をいただければ幸いです。
java - Nutch 2.2.1 + hBase
クロール用に新しいバージョンの Apache Nutch を実行しようとしています。スクリプト /bin/crawl を開始すると失敗し、hadoop.log には次のように表示されます。
java.lang.Exception: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema; org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354) で原因: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema ; org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:177) で
ログは次のとおりです。
ivy.xml 内にいくつかの gora アーティファクトを設定する必要がありますか? 私を助けてください。
hadoop - Nutch を Hadoop モードで実行している間は、nutch gora クラスはありません
やってみると
次のエラーが表示されます...
誰かがエラーを修正するのを手伝ってくれますか?
hadoop - 実稼働用の Nut と HBase
現在、Nutch 2.2.1 と HBase 0.90.4 を使用しています。シード内の約 10 個の URL から約 30 万個の URL を期待しています。Nutch 1.6 を使用している間、私はすでに多くのことを生成しました。私はデータを操作したいので、Nutch 2.2.1 + HBase ルートを選びました。しかし、あらゆる種類の奇妙なエラーが発生し、クロールが進行していないようです。
次のようなさまざまなエラー:
Zookeeper.ClientCnxn - サーバーのセッション null、予期しないエラー、ソケット接続を閉じて再接続を試みています。- 私はこれをより頻繁に取得します
bin/crawl: 164 行目: 終了- フェッチ ステップでこのエラーが発生し、クロールが突然終了します。
RSS 解析エラー
オールインワンのクロール コマンドを使用しています -bin/crawl urls 1 http://localhost:8983/solr/ 10
どこが間違っているのか教えてください。Nutch サイトから推奨されるクイック スタート ガイドに従って、 Nutch 2.2.1 をインストールし、HBase (スタンドアロン) をインストールしました。クイックスタート ガイド リンクからの HBase 0.90.4 スタンドアロン セットアップに従うだけでは、300K のクロールされた URL を達成するのに十分かどうかはわかりません。
編集 # 1: RSS 解析エラー - ログ情報
エラー tika.TikaParser - 解析エラーhttp://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS 解析エラー
solr - 統合 Nutch- Gora を使用した Hbase と Solr
私はnutch2チュートリアルに従い、nutchをHBaseと正常に統合しました。私の問題は、ディレクトリで次のコマンドを使用してURLをクロールするとき
./nutch crawl urls/seed.txt abc -depth 50 -topN 50
ですruntime/local/bin
。
エラーが発生 :
解決策を教えてください。どんな解決策でも大歓迎です。