問題タブ [gora]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Apache Nutch が上限を超えて gora レコードをフラッシュする
Hadoop/Hbase エコシステムで Nutch 2.3.1 を構成しました。私は変更gora.buffer.read.limit
していませんgora.buffer.read.limit
。つまり、どちらの場合もデフォルト値の 10000 を使用しています。生成フェーズで、topN を 100,000 に設定しました。生成ジョブ中に次の情報を取得します
ジョブの完了後、100,000 個の URL が取得対象としてマークされていることがわかりました。しかし、上記の警告が何を示しているのか混乱していますか? クロールに対する gora.buffer.read.limit の影響は何ですか? 誰かがガイドできますか?
gora - $bin/gora ファイルが実行されておらず、cmd で常に「内部コマンドまたは外部コマンドとして認識されていません」と表示されます。
私はApache goraを初めて使用します.Mavenでビルドしてインストールしました(ドキュメントのようにmvn clean install)。その後、gora-turoial モジュールをコンパイルしようとしました (ダウンロードしたプロジェクトに含まれるサンプルです)。
しかし、apache-gora-0.8/bin/gora goracompiler gora-tutorial を実行しようとすると
「ゴラは内部コマンドまたは外部コマンドとして認識されていません」ということです。 これらは apache-gora-0.8 プロジェクトのモジュールです
java - データ Bean、Java Bean、データ構造の違いは何ですか
Apache Goraを学んでいるうちに、データ Bean という用語を知るようになりました。データを保持するためのデータ構造と見なすことができますか、それとも何か他のものです。
また、類似用語として「Java bean」が存在します。データビーンと同じですか?これらの 3 つの用語の違いは何ですか?