linkedin - twitter のクロール、nutch を使用したリンクトイン

Question

私は、nutch を使用して Twitter とリンクされたデータ Nutch-0.9 をクロールしようとしています。

ただし、Twitter をクロールしようとすると、正規表現フィルターが機能しないようです。私の正規表現フィルターファイルには +^https://([a-z0-9]*.) twitter.com/a と、やりたいことが含まれています。上記のパターンに従う URL のみをクロールすることです。https://twitter.com/documentなどの URL になります。
リンクトインの部分については、クロールしようとすると常にタイムアウトが表示されます。リンクトインの robots.txt には、クローラーをホワイトリストに登録するにはメールする必要があると書かれていますが、応答しません。

あなたの助けに感謝！

score 0 · Accepted Answer

この特定の URL をクロールする場合は、次の行も含める必要があります

-.*

このコマンドは、他のすべての URL を除外します! また、twitter や linkedin をクロールしたい場合は、twit4jやlinkedin-jなどの特定のクローラーを使用できます。

score 0 · Accepted Answer

これまでのところ、Nutch は Twitter と Linkedin のデータのクロールをサポートしていませんでした。Twitter API を使用して Titter データをクロールするには、こちらのhttp://twitter4j.org/en/を確認してください。リンクされたデータをクロールするには、このhttps://github.com/pondering/scrapy-linkedinを参照してください。

お役に立てれば

linkedin - twitter のクロール、nutch を使用したリンクトイン

2 に答える 2

Related

Reference