1

この質問はばかげているように聞こえるかもしれませんが、解決策を見つけるために何時間も調査しましたが、解決できなかったので、誰かが知っていれば、それは素晴らしいことです!!!

(commoncrawl データセットから) arc ファイルの読み取りに成功しました。arcHeader.getUrl();私はすべてのURLを取得しています。ただし、その特定の URL からの「発信」リンクがある場合、それらを取得する方法がある場合はわかりません。

[PS] 「送信」とは、ページ全体で、広告やコンテンツなどのように含まれる URL を意味します。その commoncrawl arc ファイルには、含まれている場合、それらを取得する方法はありますか?

前もって感謝します!

編集:私はこれを解決し、HTML コンテンツを読み、すべてを取得しました! そんなに難しくなかった!

4

0 に答える 0