edu.uci.ics.crawler4j
lib を使用して、ローカル ディレクトリの html ファイルからページをクロールしようとしています。C:/work/temp/test.html
そのパスです。
調べてみると、crawler4j が Http 接続を行っていることがわかりました。ただし、この場合、HTTP 接続は必要ありません。また、ファイルパスの前にfile://
likeを付けました"file:///C:/work/temp/test.html" (which is accessible)
PageFetcher クラスのコードから:
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory()));
if (config.isIncludeHttpsPages()) {
schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));
}
file://
プロトコルをSchemeRegistryに登録する方法はありますか?