私は、nutch を使用して Twitter とリンクされたデータ Nutch-0.9 をクロールしようとしています。
- ただし、Twitter をクロールしようとすると、正規表現フィルターが機能しないようです。私の正規表現フィルター ファイルには +^https://([a-z0-9]*.) twitter.com/a と、やりたいことが含まれています。上記のパターンに従う URL のみをクロールすることです。https://twitter.com/documentなどの URL になります。
- リンクトインの部分については、クロールしようとすると常にタイムアウトが表示されます。リンクトインの robots.txt には、クローラーをホワイトリストに登録するにはメールする必要があると書かれていますが、応答しません。
あなたの助けに感謝 !