を介してダウンロードされたHTMLページを含む文字列がありますWinHttpReadData
。文字列は単純char*
です。
私はそのページにあるURLだけを抽出する方法を考えようとしてきました。例を挙げると、GoogleでWinHTTPという単語を検索していて、リンクでいっぱいのHTMLページが表示されているとします。次に、各リンクを確認して抽出し、ファイルに保存する必要があります。
HREF
、http://
およびその他のキーワードを検索してから、文字列を最後まで抽出しようとしました</a>
が、実際には機能していません。そのURL(<a href="http://someurl.com/somepage.html">some text</a>
getなどsome text
)から説明を取得することもできますが、URL自体ほど重要ではありません。
ここで注意が必要なのは、ライセンスなどを処理する必要がないため、サードパーティのライブラリを使用できないことです。
これを行う方法についてのアイデアはありますか?WinHTTPはこれを行う方法を提供しますか?C(C ++ではない)で?
助けてくれてありがとう