Hadoop/Hbase エコシステムで Nutch 2.3.1 を構成しました。私は変更gora.buffer.read.limit
していませんgora.buffer.read.limit
。つまり、どちらの場合もデフォルト値の 10000 を使用しています。生成フェーズで、topN を 100,000 に設定しました。生成ジョブ中に次の情報を取得します
org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records
ジョブの完了後、100,000 個の URL が取得対象としてマークされていることがわかりました。しかし、上記の警告が何を示しているのか混乱していますか? クロールに対する gora.buffer.read.limit の影響は何ですか? 誰かがガイドできますか?