2

edu.uci.ics.crawler4jlib を使用して、ローカル ディレクトリの html ファイルからページをクロールしようとしています。C:/work/temp/test.htmlそのパスです。

調べてみると、crawler4j が Http 接続を行っていることがわかりました。ただし、この場合、HTTP 接続は必要ありません。また、ファイルパスの前にfile://likeを付けました"file:///C:/work/temp/test.html" (which is accessible)

PageFetcher クラスのコードから:

    SchemeRegistry schemeRegistry = new SchemeRegistry();
    schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory()));

    if (config.isIncludeHttpsPages()) {
        schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));
    }

file://プロトコルをSchemeRegistryに登録する方法はありますか?

4

1 に答える 1

0

これは、ローカルホストの URL である必要があります。たとえば、localhost:80/ はディレクトリのルートである必要があります。URLは次のようになりますhttp://localhost:80/.......

于 2014-05-11T23:34:44.910 に答える