Webページをダウンロードしていて、そこからいくつかの値を抽出しようとしています。
私が興味を持っているページの場所はこのタイプです:
<a data-track=\"something\" href=\"someurl\" title=\"Heaven\"><img src=\"somesource.jpg\" /></a>
そして、href(someurl)値を抽出する必要があります。私が持っているHTML文字列には上記のような複数のエントリがあることに注意してください。したがって、リストを使用して、文字列から抽出したすべてのURLを格納します。
これは私がこれまでに試したことです:
QString html_str=myfile();
QRegExp regex("<a data-track\\=\"something\" href\\=\".*(?=\" title)");
if(regex.indexIn(html_str) != -1){
QStringList list;
QString str;
list = regex.capturedTexts();
foreach(str,list)
qDebug() << str.remove("<a data-track=\"something\" href=\"");
}
上記のコードでは、ファイルの最初の出現からファイルの終わりまでのlist.count() == 1
HTML文字列全体を含む1つの出現()のみを取得しますが、その中には含まれていません。これらはすべて削除されています。someurl
<a data-track="something" href=""