libcurl を使用して、必要に応じて任意の Web サイトからテキスト コンテンツをスクレイピングできる Web サイト クローラーを C で作成しました。
ただし、有効なサブスクリプションを使用して、大規模なニュース パブリッシャなどのパスワードで保護された Web サイトをクロールできるようにする必要があります。したがって、これらのサイトのユーザー名/パスワードがあります。
libcurlを使用してこれを達成するためのアドバイスを誰でも提供できますか? ユーザー名/パスワードをlibcurlオプションに追加できることは承知しています。これを実行し、パスワードで保護されている可能性のある適切なページにアクセスするだけで十分だと思いました. CURL コードの抜粋を次に示します。
curl_easy_setopt(curlTestHandle, CURLOPT_URL, "mypasswordprotectedwebsiteurl");
curl_easy_setopt(curlTestHandle, CURLOPT_WRITEFUNCTION, WriteMemoryCallback);
curl_easy_setopt(curlTestHandle, CURLOPT_FOLLOWLOCATION, 1);
curl_easy_setopt(curlTestHandle, CURLOPT_MAXREDIRS, 5);
curl_easy_setopt(curlTestHandle, CURLOPT_USERPWD, "myusername:mypassword");
res = curl_easy_perform(curlTestHandle);
curl_easy_getinfo (curlTestHandle, CURLINFO_RESPONSE_CODE, &httpResponse);
しかし、おそらく私はそれを単純化しすぎていますか?また、一部の Web サイトでは機能するかもしれませんが、他の Web サイトでは機能しないのでしょうか? 誰かが同様のことをして達成しましたか?
ありがとう、
マノジ