hbase - シードファイルの異なる URL ごとに hbase に異なるテーブルを作成するのは簡単ですか?

Question

Hbase 0.92.1 と統合された nutch 2.1 を使用しています。Web サイトからデータを取得すると、すべてのデータが Hbase の 1 つのテーブルにのみ書き込まれます。これが私の問題です。テーブルの名前は「webpage」です。

シードファイル内の異なる URL ごとに新しいテーブルを作成する方法はありますか?

score 0 · Accepted Answer

同様の機能を探していましたが、ハッキングせずにcrawlIdを使用する方法を理解できませんでした.

すぐにはわかりませんでしたが、inject は -crawlId パラメーターを取ることができます (例: nutch inject seed.txt -crawlId firstSeed)...これにより、.txt ファイル全体に対して firstSeed_webpage という名前の別のテーブルが HBase に作成されます。

上記の使用例の場合、.txt を 1 行ずつ読み取り、各 URL に新しいクロール ID を与えることができる bash スクリプトを作成するのはかなり簡単です。

!!!!! (注: そのクロールに関連するすべてのコマンドには、使用する予定のテーブルを示す -crawlId フラグを含める必要があります。)

score 0 · Accepted Answer

私はそれを見つけました.In Nutch 2.0 threreは、テーブルの名前のプレフィックスのいわゆるcrawlIdです:)。

hbase - シードファイルの異なる URL ごとに hbase に異なるテーブルを作成するのは簡単ですか?

2 に答える 2

Related

Reference