1

Hbase 0.92.1 と統合された nutch 2.1 を使用しています。Web サイトからデータを取得すると、すべてのデータが Hbase の 1 つのテーブルにのみ書き込まれます。これが私の問題です。テーブルの名前は「webpage」です。

シード ファイル内の異なる URL ごとに新しいテーブルを作成する方法はありますか?

4

2 に答える 2

0

同様の機能を探していましたが、ハッキングせずにcrawlIdを使用する方法を理解できませんでした.

すぐにはわかりませんでしたが、inject は -crawlId パラメーターを取ることができます (例: nutch inject seed.txt -crawlId firstSeed)...これにより、.txt ファイル全体に対して firstSeed_webpage という名前の別のテーブルが HBase に作成されます。

上記の使用例の場合、.txt を 1 行ずつ読み取り、各 URL に新しいクロール ID を与えることができる bash スクリプトを作成するのはかなり簡単です。

!!!!! (注: そのクロールに関連するすべてのコマンドには、使用する予定のテーブルを示す -crawlId フラグを含める必要があります。)

于 2013-02-27T23:02:10.073 に答える
0

私はそれを見つけました.In Nutch 2.0 threreは、テーブルの名前のプレフィックスのいわゆるcrawlIdです:)。

于 2012-10-04T08:48:54.480 に答える