javascript - html ページの特定の部分をバッチでエクスポートする

Question

まず、私はユーザーとしてコミュニティに参加したばかりですが、素晴らしいコミュニティだと言いたいです。

私の質問は、毎日変化し、自分のものではない Web ページから、その部分で使用されている画像の名前または名前を<a href=""使用して、要素から URL を取得したいということです。<alt="new"><td>

これまでのところ、ページをwgetテキストファイルにダウンロードするためのコードを記述してから、image または alt 変数を検索しました。<a href検索されたアイテムが存在する部分が表示されたとしても、画像の直前にある必要な部分が含まれていません。

編集:以下の行を取得できました。バッチで内部の URL を取得するか、javascript でリダイレクトする必要がありますが、タイトルと URL が変更されたため、困難でした。助けはありますか？

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>

score 0 · Accepted Answer

に含まれる HTML ファイルリンクから取得したいということを正しく理解している場合は<a href=""、私の頭に浮かぶ最初の解決策は、HTML全体をダウンロードし、pythonとBeautifulSoupライブラリを使用してこのファイルを解析し、すべての「href」を取得することです. ということですか？

score 0 · Accepted Answer

提供されたコードを使用する:

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

二重引用符に注意してください。二重引用符で囲まないとエラーの原因となるリダイレクト文字であるため、html タグの区切り文字<とを削除するために不可欠です。>

上記のコードをコマンドプロンプトに直接コピーアンドペーストして、テストすることができます。

javascript - html ページの特定の部分をバッチでエクスポートする

2 に答える 2

Related

Reference