2

私は、nutch を使用して Twitter とリンクされたデータ Nutch-0.9 をクロールしようとしています。

  1. ただし、Twitter をクロールしようとすると、正規表現フィルターが機能しないようです。私の正規表現フィルター ファイルには +^https://([a-z0-9]*.) twitter.com/a と、やりたいことが含まれています。上記のパターンに従う URL のみをクロールすることです。https://twitter.com/documentなどの URL になります。
  2. リンクトインの部分については、クロールしようとすると常にタイムアウトが表示されます。リンクトインの robots.txt には、クローラーをホワイトリストに登録するにはメールする必要があると書かれていますが、応答しません。

あなたの助けに感謝 !

4

2 に答える 2

0

この特定の URL をクロールする場合は、次の行も含める必要があります

-.*

このコマンドは、他のすべての URL を除外します! また、twitter や linkedin をクロールしたい場合は、twit4jlinkedin-jなどの特定のクローラーを使用できます。

于 2013-09-16T07:46:54.447 に答える
0

これまでのところ、Nutch は Twitter と Linkedin のデータのクロールをサポートしていませんでした。Twitter API を使用して Titter データをクロールするには、こちらのhttp://twitter4j.org/en/を確認してください。リンクされたデータをクロールするには、このhttps://github.com/pondering/scrapy-linkedinを参照してください。

お役に立てれば

于 2013-09-19T12:48:49.917 に答える