問題タブ [crawler4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
167 参照

java - !FILTER とはどういう意味ですか?

私は最近Crawler4jを実装しました。コードを 1 行ずつ分解して自分で学習しようとしています。以下のコード行にある !FILTERS オブジェクトの意味がわかりません。

誰かが私を理解するのを手伝ってくれたら大歓迎です!FILTERS

0 投票する
2 に答える
1683 参照

java - Web クローラー経由で保管された .lck および jdb ファイルへのアクセス

私は現在、選択したウェブクローラーとしてcrawler4jを使用しており、ウェブクローラーがどのように機能するかを独学しようとしています. クロールを開始しましたが、クロールされたデータがクロール ストレージ フォルダー (/data/crawl/root) にすぐに返されることを期待していました。

問題は、私が見つけた唯一の情報は、データが保存されている場所であると想定しているcrawlStorageFolderの場所にある2つの.lckファイルと1つの.jdbファイルですが、それらを開くこともできません。データにアクセスする方法を理解できるように、誰かが親切に教えてくれますか? それは大歓迎です。

0 投票する
3 に答える
1703 参照

java - Java の誤ったツリー型

BasicCrawlControllerJava で次のコードを実行しようとしていますが、エラーが発生します。

エラーは次のとおりです。

コードの問題は何ですか?これは、crawler4j の Web サイトから完全にコピーされたものです。

0 投票する
1 に答える
565 参照

crawler4j - Crawler4j - 例外 java.lang.NoSuchMethodError の取得

私はeclipse(juno)経由でcrawler4jをセットアップしようとしています。実行すると、以下の例外が発生します(プログラムは何もログに記録せずに実行し続けますが):

「スレッド「メイン」での例外 java.lang.NoSuchMethodError: com.sleepycat.je.EnvironmentConfig.setAllowCreate(Z)Lcom/sleepycat/je/EnvironmentConfig; edu.uci.ics.crawler4j.crawler.CrawlController.(CrawlController.java :90) packCrawler.BasicCrawlController.main(BasicCrawlController.java:81) で"エラー?. 私も同じエラーが発生しています。(CrawlController.java:90) をクリックしたとき」

Crawler4j-3.4.jar に CrawlController のソースが添付されていないことがわかりました。そのため、メソッド " setAllowCreate" があるかどうかわかりません。

同様の投稿があります:クローラー4j CrawelControllerクラスのNoSuchMethodError

しかし、問題がどのように修正されたかは正確にはわかりません。誰か提案はありますか?

ありがとうございました。ネハ

0 投票する
2 に答える
2093 参照

java - HTML 内のすべての URL を置き換える

私はいくつかの HTML ファイルをクローラー 4jでクロールしており、それらのページのすべてのリンクをカスタム リンクに置き換えたいと考えています。現在、ソース HTML とすべての発信リンクのリストを次のコードで取得できます。

ただし、単純なforeachループと検索と置換では、必要なものが得られません。問題は、atheWebURL.getURL();が絶対 URL を返しますが、リンクが相対である場合とそうでない場合があることです。

すべてのリンク (画像、URL、JavaScript ファイルなど) を処理したい。たとえば、 に置き換えたいと思いimages/img.gifますview.php?url=http://www.domain.com/images/img.gif

私に来る唯一の解決策は、やや複雑なRegexものを使用することですが、いくつかのまれなケースを見逃すことになるのではないかと心配しています. これはすでに行われていますか?これを達成するためのライブラリまたはツールはありますか?

0 投票する
1 に答える
2090 参照

web-crawler - MyCrawler.java Controller.java ファイルでcrawler4j.jar を実行する方法

私はクローラーを初めて使用し、最初のクローラー プログラムを実行したいと考えています。私は3つのファイルを持っています

  1. Crawler4j.jar
  2. Mycrawler.java
  3. Controller.java と入力すると、ターミナルでjavac -cpcrawler4j-3.1.jar MyCrawler.java Controller.javaと入力すると、次のエラーが表示されます。

"

私はどこで間違いを犯していますか?ありがとう

0 投票する
2 に答える
1331 参照

java - jsファイルをダウンロードするにはcrawler4jを使用してください

私はいくつかのウェブサイトをダウンロードするためにcrawler4jを使用しようとしています。.js私が抱えている唯一の問題は、関数内のすべてのファイルに対してtrueを返しても、shouldVisitダウンロードされないことです。

.jsファイルのURLが印刷されることはありません。

0 投票する
3 に答える
445 参照

java - オブジェクトによって作成されたスレッドを強制終了します

scroller4jを使用してカスタムクローラーを作成しました。私のアプリでは、多くのコントローラーを作成しますが、しばらくすると、システム内のスレッドの数が最大値に達し、JVMが例外をスローします。ShutDown()コントローラを呼び出して、として設定してnull呼び出しSystem.gc()ても、アプリのスレッドは開いたままになり、アプリがクラッシュします。

jvisualvm.exe(Java VisualVM)を使用したところ、ある時点でアプリが931スレッドに達することがわかりました。

CrawlControllerクローラー4jプロジェクトのオブジェクトによって作成されたすべてのスレッドをすぐに強制終了する方法はありますか?(またはその他のオブジェクト)

0 投票する
0 に答える
186 参照

http-headers - プログラムで取得した Web ページがブラウザーで表示されるものと異なるのはなぜですか?

私はクローラー4jを使用して、Googleプレイストア(httpsページ)からデータを取得しています。しかし、ダウンロードした html コンテンツを確認したところ、ブラウザーで表示されるページ ソースとは少し異なっていることがわかりました。なんで?私がボット クライアントを使用していることを Google が検出したためでしょうか (そのため、http 要求の処理が異なります)。

誰でも私を助けることができますか?どうもありがとう!

私は問題を解決しました。すべての助けに感謝します:)

0 投票する
1 に答える
1643 参照

crawler4j - URLがcrawler4jで404または301であるかどうかを取得する方法

URLがcrawler4jで404または301であるかどうかを取得することは可能ですか?

クローラーコードでこれを使用しています。誰か教えてもらえますか?