この質問はばかげているように聞こえるかもしれませんが、解決策を見つけるために何時間も調査しましたが、解決できなかったので、誰かが知っていれば、それは素晴らしいことです!!!
(commoncrawl データセットから) arc ファイルの読み取りに成功しました。arcHeader.getUrl();
私はすべてのURLを取得しています。ただし、その特定の URL からの「発信」リンクがある場合、それらを取得する方法がある場合はわかりません。
[PS] 「送信」とは、ページ全体で、広告やコンテンツなどのように含まれる URL を意味します。その commoncrawl arc ファイルには、含まれている場合、それらを取得する方法はありますか?
前もって感謝します!
編集:私はこれを解決し、HTML コンテンツを読み、すべてを取得しました! そんなに難しくなかった!