2

私はnutch2.2とhbase 0.94とgora 0.4を使用しており、次の手順を実行しているとき

1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231

特定のページのhtmlコンテンツを取得します([ http://www.flipkart.com/mens-clothing/t-Shirts?otracker=hp_nmenu_sub_men_0_T-Shirts] )が、ステップ4を実行しているとき

nutch parse 231

webpagehbaseで作成されたテーブルを参照してくださいol(outlink)列ファミリーがありますが、空です

誰かが助けてくれれば、すべてのアウトリンクを取得できれば、私にとって良いことです。

前もって感謝します

4

0 に答える 0