c - Cを使用してHTMLドキュメントから情報を抽出します

Question

C（C＃でもC ++でもないプレーンC。私には理由があります。）を学ぶために、URLから取得したHTMLドキュメントからいくつかの情報を抽出する必要があることに気付きました。つまり、ページ上の特定の順序付けられていないリストにあるリンクからのすべてのhref属性を、文字列の配列で取得する必要があります。これらのURLは、ダウンロードしてzipファイルに保存したい画像を指しています。

さて、私が知っている何人かの人々にCが得意であると聞いたところ、彼らは「Cは間違ったツールです」と言ったか、ドキュメントが少ないことで有名なlibXMLを指摘してくれました。libsoupとlibtidyも見てきましたが、つなぎ合わせることができないようです。

どのアプローチ/ライブラリを選ぶべきですか？誰かが私が見ることができるいくつかのサンプルコードを知っていますか？

編集：コメントの半分がC以外のものを使用するように指示しているのを見て、私は「仕事に適したツール」を探していないことを付け加えます。Rubyに慣れているという理由だけで、できるだけ早くRubyを実行したい場合は、おそらくRubyを使用します。Cを学ぶことは私の探求の一部であり、そのため、私は純粋なCソリューションを探しています。

score 0 · Accepted Answer

あなたは C を学びたいと思っているので、標準ライブラリと .

http://www.cplusplus.com/reference/clibrary/cstdio/ http://www.cplusplus.com/reference/clibrary/cstring/

最も簡単な方法は、他の方法でページを取得し、それをローカルファイルに書き込み、そのファイル名をプログラムに渡すことです。出力を STDOUT に出力します。

c - Cを使用してHTMLドキュメントから情報を抽出します

1 に答える 1

Related

Reference