私は Recaptcha を使用して政府の Web サイトをクロールしています それは合法か違法か、バックエンド コードでいくつかのリンクを見つけましたが、以下のリンク以外にコメントが付けられています。これらのリンクは Web サイトでは使用されていません。データは、リンクがデータをクロールするのに適しているか、そのリンクを使用してデータをクロールしていた場合、Web サイトの所有者が私の IP アドレスをブロックする可能性があります。これは私のコードで、データをクロールしています
var requester = new HttpRequester();
requester.Headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36";
var configuration = Configuration.Default.WithDefaultLoader(requesters: new[] { requester }).WithCookies();
string url = "http://www.mca.gov.in/mcafoportal/viewSignatoryDetails.do";
var context = BrowsingContext.New(configuration);
await context.OpenAsync(url);
try
{
await context.Active.QuerySelector<IHtmlFormElement>("form[name='signatoryForm']").SubmitAsync(new
{
companyID= "U30009KA2001PTC029692",
displayCaptcha ="false"
});
Console.WriteLine();
}
catch(Exception ex)
{
Console.WriteLine(ex.InnerException.Message);
}
if (context.Active != null)
{
var sdTable = context.Active.QuerySelector<IHtmlTableElement>("table[id='signatoryDetails']");
if (sdTable != null)
{
if (sdTable.Children.Count() > 0)
{
for (int i = 0; i < sdTable.Children[1].ChildElementCount; i++)
{
Console.WriteLine(sdTable.Children[1].Children[i].Children[0].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[1].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[2].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[3].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[4].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[5].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[6].TextContent);
Console.WriteLine(sdTable.Children[1].Children[i].Children[7].TextContent);
Console.WriteLine("------------------------------");
}
}
}
else
{
Console.WriteLine("No result found");
}
}
}
catch ( Exception ex)
{
Console.WriteLine(ex.Message);
}
私はこの URL のインデックス料金でデータをクロールしていますが、この URL署名者を変更すると、データをクロールするときにエラーが発生するか、最初の URL として機能しません。不足しているものを教えてください。