0

一般的なクロールの例を実行して、Warc ファイルから URL と電子メールを抽出しようとしています。一つだけ疑問があります。抽出した電子メールが URL に属しているか、他の Web サイトに属しているかにかかわらず、これは紛らわしい部分です。
助けてください。この混乱をどのように解決できますか?
私が行ったことは次のとおりです。WordCount の一般的なクロールの例を使用して、URL を抽出してから電子メールを送信するように設定しました。抽出後、ファイルに保存されます。

それは抽出のための単純なロジックです。しかし、見つかった URL と見つかった電子メールが互いに対応しているとどのように信じることができるでしょうか?

4

0 に答える 0