hadoop - Apache Nutch が上限を超えて gora レコードをフラッシュする

Question

Hadoop/Hbase エコシステムで Nutch 2.3.1 を構成しました。私は変更gora.buffer.read.limitしていませんgora.buffer.read.limit。つまり、どちらの場合もデフォルト値の 10000 を使用しています。生成フェーズで、topN を 100,000 に設定しました。生成ジョブ中に次の情報を取得します

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

ジョブの完了後、100,000 個の URL が取得対象としてマークされていることがわかりました。しかし、上記の警告が何を示しているのか混乱していますか? クロールに対する gora.buffer.read.limit の影響は何ですか? 誰かがガイドできますか？

score 1 · Accepted Answer

そのログはここに書かれています。デフォルトでは、バッファは 10000 レコードを書き込んだ後にフラッシュされるため、(またはコードで)どこかに設定gora.buffer.write.limitする必要があります。60000core-site.xmlmapred-site.xml

INFO レベルであるため、重要ではありません。書き込みバッファがストレージに書き込まれることを通知するだけです。書き込みプロセスは、を呼び出すたびstore.flush()に、またはgora.buffer.write.limitサイズのバッチで発生します。

hadoop - Apache Nutch が上限を超えて gora レコードをフラッシュする

1 に答える 1

Related

Reference