大規模な Web スクレイピング/解析プロジェクトを設計しています。基本的に、スクリプトは Web ページのリストを調べ、特定のタグのコンテンツを抽出し、データベースに保存する必要があります。大規模 (数千万ページ) でこれを行う場合、どの言語をお勧めしますか? .
データベースには MongoDB を使用しているため、しっかりした MongoDB ドライバーがあればプラスになります。
これまでのところ、PHP、curl、 Simple HTML DOM Parserを使用してきましたが (笑わないでください) 、特に PHP には適切なマルチスレッド機能がないため、何百万ページにも拡張できるとは思いません。
簡単に開発でき、Linux サーバーで実行でき、そのタグを簡単に抽出できる強力な HTML/DOM パーサーを備え、妥当な時間内に何百万もの Web ページを簡単にダウンロードできるものが必要です。リンクをたどってすべてのコンテンツをインデックス化する必要はなく、リストの各ページから 1 つのタグを抽出するだけでよいため、実際には Web クローラーを探しているわけではありません。