私のアプリケーションでは、crawler4j を使用しています。アプリケーションは大きいですが、ここにあるサンプルコードでコードをテストしました: https://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples /基本/
問題は、ほとんどのサイトで機能することですが、シード URL をhttp://indianexpress.com/として追加すると、Eclipse でエラー メッセージが表示されずにクローラーが停止します。何度か試しましたが、うまくいきません。shouldVisitメソッドで「hello」などのURLとサンプルテキストを出力してみましたが、何も出力されず、そこにも届いていません。問題は何ですか?
編集 :
私は、クローラー4jはどのワードプレスサイトでも機能していないと考えました。たとえば、http://darcyconroy.net/またはhttp://indianexpress.com/nextを確認できます(wordpress サイトの URL に /next を追加します) 。何が原因でしょうか? http://indianexpress.com/robots.txtには怪しいことは書かれていないようです。