簡単なWebクローラーを開発して、いくつかのWebサイトからページを取得し、それらを実際の状態で維持したいと考えています。このサイトの一部では、各リンクにセッション ID があり、Cookie にセッション ID をまったく保存していません。したがって、サイトを数回解析すると、解析テーブルには、セッション ID のみが異なる複製ページが含まれます。
私の質問は次のとおりです。すべてのリンクからセッションIDを削除するにはどうすればよいですか?何か賢いアイデアはありますか? 私はphpで開発していますが、言葉のアルゴリズムだけでも、他のすべてのプラットフォームのソリューションが役立ちます。