次のような URL のセットを含むリストがあります。
- somesite.com/index.php?id=12
- somesite.com/index.php?id=14
- somesite.com/index.php?id=156
- example.com/view.php?image=441
- somesite.com/page.php?id=1
- example.com/view.php?ivideo=4
- somesite.com/page.php?id=56
- example.com/view.php?image=1
これらはリストに保存され、クロール プロセス後にリストビューに表示されます。さまざまな正規表現パターンを試しましたが、クエリ文字列が問題になったため、正確に必要なものをアーカイブできませんでした。
これは私が試したパターンの1つです。
(http://?)(w*)(\.*)(\w*)(\.)(\w*)
上記の URL をフィルタリングする方法を書きましょう。
- somesite.com/index.php?id=12
- example.com/view.php?image=441
- somesite.com/page.php?id=1
- example.com/view.php?ivideo=4
ご覧のとおり、クエリ文字列が異なる同じページは削除されています。これは私がアーカイブしたいものです。上記のリンクにはhttp://が含まれていますが、SOF がスパムとして検出したため含まれていません。誰でも親切にこれを手伝ってくれますか。前もって感謝します。