Hbase 0.92.1 と統合された nutch 2.1 を使用しています。Web サイトからデータを取得すると、すべてのデータが Hbase の 1 つのテーブルにのみ書き込まれます。これが私の問題です。テーブルの名前は「webpage」です。
シード ファイル内の異なる URL ごとに新しいテーブルを作成する方法はありますか?
同様の機能を探していましたが、ハッキングせずにcrawlIdを使用する方法を理解できませんでした.
すぐにはわかりませんでしたが、inject は -crawlId パラメーターを取ることができます (例: nutch inject seed.txt -crawlId firstSeed)...これにより、.txt ファイル全体に対して firstSeed_webpage という名前の別のテーブルが HBase に作成されます。
上記の使用例の場合、.txt を 1 行ずつ読み取り、各 URL に新しいクロール ID を与えることができる bash スクリプトを作成するのはかなり簡単です。
!!!!! (注: そのクロールに関連するすべてのコマンドには、使用する予定のテーブルを示す -crawlId フラグを含める必要があります。)
私はそれを見つけました.In Nutch 2.0 threreは、テーブルの名前のプレフィックスのいわゆるcrawlIdです:)。