0

まず、私はユーザーとしてコミュニティに参加したばかりですが、素晴らしいコミュニティだと言いたいです。

私の質問は、毎日変化し、自分のものではない Web ページから、その部分で使用されている画像の名前または名前を<a href=""使用して、要素から URL を取得したいということです。<alt="new"><td>

これまでのところ、ページをwgetテキスト ファイルにダウンロードするためのコードを記述してから、image または alt 変数を検索しました。<a href検索されたアイテムが存在する部分が表示されたとしても、画像の直前にある必要な部分が含まれていません。

編集:以下の行を取得できました。バッチで内部の URL を取得するか、javascript でリダイレクトする必要がありますが、タイトルと URL が変更されたため、困難でした。助けはありますか?

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>
4

2 に答える 2

0

に含まれる HTML ファイル リンクから取得したいということを正しく理解している場合は<a href=""、私の頭に浮かぶ最初の解決策は、HTML全体をダウンロードし、pythonとBeautifulSoupライブラリを使用してこのファイルを解析し、すべての「href」を取得することです. ということですか?

于 2012-09-25T20:49:42.243 に答える
0

提供されたコードを使用する:

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

二重引用符に注意してください。二重引用符で囲まないとエラーの原因となるリダイレクト文字であるため、html タグの区切り文字<とを削除するために不可欠です。>

上記のコードをコマンド プロンプトに直接コピー アンド ペーストして、テストすることができます。

于 2012-09-27T05:11:28.903 に答える