Crawler4j の最新バージョンを使用して、いくつかのフィード URL をクロールしています。ドキュメント ID とともにいくつかのシード URL を渡しました。また、そのページのコンテンツのみが必要なため、深さをゼロに設定しました。
問題は、これらのシード URL の parentdocid と親 URL を取得できないことです。元の URL に関連付けられているリダイレクトされた URL を知りたいです。
page.getWebURL().getParentUrl();
親URLを取得するために使用しています。
詳細な説明についてはhttp://code.google.com/p/crawler4j/issues/detail?id=163
誰かが同様の問題を抱えていますか?
別の URL で再試行しましたが、結果は同じでした。controller.addSeed("feeds.reuters.com/~r/reuters/bankruptcyNews/~3/es0kEUT8gI0/",321);
出力: -
ParentDocId 0 DocID 322 親ページ null
UPDATE:--------
私はcrawler4jコードを調べて、一時的に問題を修正しました。
-------- PageFetcher.java ---------
if (header != null) {
String movedToUrl = header.getValue();
movedToUrl = URLCanonicalizer.getCanonicalURL(movedToUrl, toFetchURL);
fetchResult.setMovedToUrl(movedToUrl);
webUrl.setParentUrl(webUrl.getURL()); //My Custom Code to add Parent URL.
/*This won't work due to collision with next
document ID which needs to be unique.
webUrl.setParentDocid(webUrl.getDocid());*/
}