問題タブ [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - !FILTER とはどういう意味ですか?
私は最近Crawler4jを実装しました。コードを 1 行ずつ分解して自分で学習しようとしています。以下のコード行にある !FILTERS オブジェクトの意味がわかりません。
誰かが私を理解するのを手伝ってくれたら大歓迎です!FILTERS
java - Web クローラー経由で保管された .lck および jdb ファイルへのアクセス
私は現在、選択したウェブクローラーとしてcrawler4jを使用しており、ウェブクローラーがどのように機能するかを独学しようとしています. クロールを開始しましたが、クロールされたデータがクロール ストレージ フォルダー (/data/crawl/root) にすぐに返されることを期待していました。
問題は、私が見つけた唯一の情報は、データが保存されている場所であると想定しているcrawlStorageFolderの場所にある2つの.lckファイルと1つの.jdbファイルですが、それらを開くこともできません。データにアクセスする方法を理解できるように、誰かが親切に教えてくれますか? それは大歓迎です。
java - Java の誤ったツリー型
BasicCrawlController
Java で次のコードを実行しようとしていますが、エラーが発生します。
エラーは次のとおりです。
コードの問題は何ですか?これは、crawler4j の Web サイトから完全にコピーされたものです。
crawler4j - Crawler4j - 例外 java.lang.NoSuchMethodError の取得
私はeclipse(juno)経由でcrawler4jをセットアップしようとしています。実行すると、以下の例外が発生します(プログラムは何もログに記録せずに実行し続けますが):
「スレッド「メイン」での例外 java.lang.NoSuchMethodError: com.sleepycat.je.EnvironmentConfig.setAllowCreate(Z)Lcom/sleepycat/je/EnvironmentConfig; edu.uci.ics.crawler4j.crawler.CrawlController.(CrawlController.java :90) packCrawler.BasicCrawlController.main(BasicCrawlController.java:81) で"エラー?. 私も同じエラーが発生しています。(CrawlController.java:90) をクリックしたとき」
Crawler4j-3.4.jar に CrawlController のソースが添付されていないことがわかりました。そのため、メソッド " setAllowCreate
" があるかどうかわかりません。
同様の投稿があります:クローラー4j CrawelControllerクラスのNoSuchMethodError
しかし、問題がどのように修正されたかは正確にはわかりません。誰か提案はありますか?
ありがとうございました。ネハ
java - HTML 内のすべての URL を置き換える
私はいくつかの HTML ファイルをクローラー 4jでクロールしており、それらのページのすべてのリンクをカスタム リンクに置き換えたいと考えています。現在、ソース HTML とすべての発信リンクのリストを次のコードで取得できます。
ただし、単純なforeach
ループと検索と置換では、必要なものが得られません。問題は、atheWebURL.getURL();
が絶対 URL を返しますが、リンクが相対である場合とそうでない場合があることです。
すべてのリンク (画像、URL、JavaScript ファイルなど) を処理したい。たとえば、 に置き換えたいと思いimages/img.gif
ますview.php?url=http://www.domain.com/images/img.gif
。
私に来る唯一の解決策は、やや複雑なRegex
ものを使用することですが、いくつかのまれなケースを見逃すことになるのではないかと心配しています. これはすでに行われていますか?これを達成するためのライブラリまたはツールはありますか?
web-crawler - MyCrawler.java Controller.java ファイルでcrawler4j.jar を実行する方法
私はクローラーを初めて使用し、最初のクローラー プログラムを実行したいと考えています。私は3つのファイルを持っています
- Crawler4j.jar
- Mycrawler.java
- Controller.java と入力すると、ターミナルでjavac -cpcrawler4j-3.1.jar MyCrawler.java Controller.javaと入力すると、次のエラーが表示されます。
"
私はどこで間違いを犯していますか?ありがとう
java - jsファイルをダウンロードするにはcrawler4jを使用してください
私はいくつかのウェブサイトをダウンロードするためにcrawler4jを使用しようとしています。.js
私が抱えている唯一の問題は、関数内のすべてのファイルに対してtrueを返しても、shouldVisit
ダウンロードされないことです。
.js
ファイルのURLが印刷されることはありません。
java - オブジェクトによって作成されたスレッドを強制終了します
scroller4jを使用してカスタムクローラーを作成しました。私のアプリでは、多くのコントローラーを作成しますが、しばらくすると、システム内のスレッドの数が最大値に達し、JVMが例外をスローします。ShutDown()
コントローラを呼び出して、として設定してnull
呼び出しSystem.gc()
ても、アプリのスレッドは開いたままになり、アプリがクラッシュします。
jvisualvm.exe
(Java VisualVM)を使用したところ、ある時点でアプリが931スレッドに達することがわかりました。
CrawlController
クローラー4jプロジェクトのオブジェクトによって作成されたすべてのスレッドをすぐに強制終了する方法はありますか?(またはその他のオブジェクト)
http-headers - プログラムで取得した Web ページがブラウザーで表示されるものと異なるのはなぜですか?
私はクローラー4jを使用して、Googleプレイストア(httpsページ)からデータを取得しています。しかし、ダウンロードした html コンテンツを確認したところ、ブラウザーで表示されるページ ソースとは少し異なっていることがわかりました。なんで?私がボット クライアントを使用していることを Google が検出したためでしょうか (そのため、http 要求の処理が異なります)。
誰でも私を助けることができますか?どうもありがとう!
私は問題を解決しました。すべての助けに感謝します:)
crawler4j - URLがcrawler4jで404または301であるかどうかを取得する方法
URLがcrawler4jで404または301であるかどうかを取得することは可能ですか?
クローラーコードでこれを使用しています。誰か教えてもらえますか?