私はnutch2.2とhbase 0.94とgora 0.4を使用しており、次の手順を実行しているとき
1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231
特定のページのhtmlコンテンツを取得します([ http://www.flipkart.com/mens-clothing/t-Shirts?otracker=hp_nmenu_sub_men_0_T-Shirts] )が、ステップ4を実行しているとき
nutch parse 231
webpage
hbaseで作成されたテーブルを参照してくださいol(outlink)
列ファミリーがありますが、空です
誰かが助けてくれれば、すべてのアウトリンクを取得できれば、私にとって良いことです。
前もって感謝します