python - この Web サイト (Linux の場合) でリンクを検索するにはどうすればよいですか?

Question

mako.co.il 用の xbmc プラグインを作成しようとしています (xbmako があることは知っていますが、Linux にはインストールできません)。エピソードサイトを正規表現しようとしても、結果が得られません。このWebページを試してみたところ、次を使用してリンクを見つけることができましたa href=".*?">\n\t*<img

ここにテストサイトがあります: http://www.mako.co.il/mako-vod-keshet/aharoni_cooks

ここにチュートリアルがあります: http://wiki.xbmc.org/index.php?title=HOW-TO_write_plugins_for_XBMC

改行と関係があると思います。私が考えた解決策は、のa href=".*?">後に何かが続くものを検索することです。\t<img

編集:
OK、この dom xml 解析スタイルを実行しようとしました。101行目に、パーサーがタグと見なすforループを含む(javascript?)部分があるため、私は立ち往生しています...

score 0 · Accepted Answer

DOM パーサーを使用する

HTML ファイルを手動で解析しないでください。代わりに、DOM パーサーを使用してみてください。一般的な Python コードにはminidomまたはElementTreeをお勧めします。

XBMC

XBMC について言及されているので、この目的のために設計されたParsedomプラグインを使用することをお勧めします。

プラグインページには、すべてのaタグを一覧表示する方法、または特定のタグを選択する方法が示されています。

score 0 · Accepted Answer

このサイトでは改行に CR-LF を使用していますが、正規表現では改行が LF であると想定されています。両方のスタイルをチェックすることで、これに対処できます。

a href=".*?">\r?\n\t*<img

python - この Web サイト (Linux の場合) でリンクを検索するにはどうすればよいですか?

2 に答える 2

Related

Reference