100 万以上のドメインの HTTP ヘッダーをチェックしようとしています (つまり、200/404/302 を探します)。
この時点では、本文の HTML は必要ありません (後で必要になるかもしれませんが) ので、GET ではなく HEAD リクエストを使用することをお勧めします。一部のサーバーは HEAD をサポートしていないことを理解しており、物事をシンプルに保つために、HEAD をチェック不能として喜んで犠牲にします。
PHP で記述された多くのソリューション (カール、マルチ カール、いくつかの DIY カール並列オプション) を試しましたが、どれも十分に高速ではありません。
どの言語を使用しても問題ありません。理想的な結果は、既にコンパイルされていて、単に URL のリストを取得してヘッダーを吐き出す C アプリを見つけることです。たとえば、私はすべてのドメインの DNS 設定をチェックするために事前にロールされた DNS アプリケーションを使用しています。私がしなければならないことは、それにパイプを開いてドメインをフィードすることだけであり、応答が入ってくると応答を吐き出します (必ずしも同じ順番)。
十分に高速にするには、非同期またはスレッド化する必要があります。
いくつかの python オプション (Twisted フレームワークや liburl2 など) を調べましたが、信頼できるものを起動して実行することはできませんでした。
誰かが私に既製の解決策を教えてくれることを願っています!