ページをクロールしたいのですが、すべての画像/ビデオなどを避けて、HTML自体だけを取得する必要があります...これを行うことは可能ですか?前もって感謝します。
質問する
469 次
1 に答える
1
regex-urlfilter.txtファイルを確認してください。
インデックスを付けたくないファイル拡張子の拡張子を含めることができます。例えば
# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
于 2013-01-11T03:57:01.250 に答える