Web スクレイパーで、.od .jpg .pdf または .mp3 で終わる印刷リンクを除外する必要があります
これが私のif
声明です
if link in linkList():
print link
そのためのPythonのライブラリはありますか?私は「RegEx」しか知りませんが、私はそれの最大のユーザーではありません。
別の方法。解決策はおそらくより良いですが、os.path.splitext
文字列が多くの部分文字列のいずれかで終わっているかどうかを確認するには:
if link.endswith((".pdf", ".mp3", ".jpg")):
print link
リンクが単なるパスであると仮定すると、次のようなことができます。
import os
if os.path.splitext(link)[1] not in ['.jpg', '.pdf', '.mp3']:
print link
この関数splitext
はパスを受け取り、拡張子のないパスとそれに続く拡張子を含むタプルを返します。例えば:
>>> os.path.splitext('http://www.example.com/path/to/filename.ext')
('http://www.example.com/path/to/filename', '.ext')
したがって、その関数でリンクを分割すると、タプルの最後の要素が、拡張機能のブラックリストを含む別のリスト/セット/タプルのメンバーであるかどうかを確認できます。