問題タブ [crawler4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
599 参照

web-crawler - 動的データのみをクロールする

私は地元の新聞のアーカイブをクロールしようとしていますが、望ましい結果が得られています。すべてのページで同じであるホーム、ボタン、およびそれらのフッターなどの静的ボタンがクロールに含まれないようにクローラーをプログラムする方法はありますか?

これは、クロールされたデータを表示するために使用しているコードです

0 投票する
2 に答える
561 参照

java - crawler4j ライブラリを使用した Java Web クローラーでのパターン マッチングに関する情報

Java を使用して非常に単純な Webクローラーを実装したいのですが、次のライブラリを見つけました。

次のことを行うクローラーが必要です。

URL(私が指定)から開始し、現在のページに自分の名前や会社名などの特定の単語があるかどうかを認識します(この単語も私が指定します)

この単語が見つかった場合、現在のページの URL をデータベースに保存する必要があります。

したがって、意味分析はなく、構文分析のみが行われます (クローラーは、Web ページのコンテンツを、私が指定したトークンと一致させようとする必要があります)。

このトークン調査 (現在のページに単語が含まれているかどうかを調べる) が、 WebCrawlercrawler4j の抽象クラスによって実装された機能なのか、それとも自分で実装する必要があるのか​​がわかります。

0 投票する
1 に答える
5027 参照

java - クローラー4j の例でエラーが発生するのはなぜですか?

クローラー 4j で基本的なクローラーの例を使用しようとしています。ここでクローラー4j Webサイトからコードを取得しました。

上記は、例のクローラー クラスのコードです。

上記は、Web クローラーのコントローラー クラスのクラスです。IDE (Intellij) から Controller クラスを実行しようとすると、次のエラーが発生します。

ここにあるmaven構成について知っておくべきことはありますか? 別のバージョンなどを使用する必要がありますか?

0 投票する
1 に答える
592 参照

java - .lckファイルとは何ですか?バッファリーダーで読み取れないのはなぜですか?

私はcrawler4jを使用してWebサイトをクロールしようとしています。私はcrawler4jのウェブサイトの指示に従うことができました。完了すると、2つの異なる.lckファイル(1つは.jdbファイル、もう1つは.info.0ファイル)を含むフォルダーが作成されます。

この回答で提供したコードを使用してファイルを読み込もうとしましたが、失敗し続けます。以前に同じ関数を使用してテキストファイルを読み取ったことがあるので、コードが機能することはわかっています。

また、数か月前に同じ質問をした人を見つけました。彼らは決して答えを得ませんでした。

コードを使用してこれらの.lckファイルを開いてメモリに読み取ることができないのはなぜですか?

0 投票する
1 に答える
940 参照

java - クローラー4jは常に致命的なトランスポートエラーを返します

これは、crawler4j に追加したシードに対して得られるものです。

これは私にとって本当に奇妙です。何が原因かわかりません。

0 投票する
1 に答える
444 参照

web-crawler - Crawler4jオープンソースコードでStatisticsDBは何をしますか?

Crawler4j オープン ソースWeb クローラーを理解しようとしています。ところで、私はいくつかの疑問を持っていますが、それは次のとおりです。

質問:-

  1. CountersクラスでStatisticsDBは何をしているのですか。以下のコード部分を説明してください。

    /li>

私の知る限り、クロールされた URL が保存されるため、クローラーがクラッシュした場合に役立ちます。その後、Web クローラーを最初から開始する必要はありません。 上記のコードを1行ずつ説明してください。

2. Crawlers4j は SleepyCat を使用して中間情報を保存するため、SleepyCat を説明する適切なリンクが見つかりませんでした。ですから、SleepyCat の基本を学べる良いリソースを教えてください。(上記のコードで使用されているトランザクション、カーソルの意味がわかりません)。

お願い助けて。あなたの親切な返事を探しています。

0 投票する
1 に答える
7601 参照

java - IntelliJ を使用して Maven 依存関係ソースにデバッグする

IntelliJ で Maven プロジェクトをデバッグしており、pom.xml で指定されている依存関係の 1 つのソースにステップインする方法を見つけようとしています。具体的には、私のプロジェクトは Crawler4J に依存しています。Parser.parse() から奇妙な動作が見られます。そのメソッドを実行したいと考えています。ソースを使用してローカルの複製された Git リポジトリをセットアップし、[プロジェクト構造] の [ソース] オプションを介してアタッチしようとしましたが、コンパイルされた Crawler4J メソッドにステップインできません。長年の C# 開発者 (および相対的な Java ナブ) として、私が理想的に気に入っていたのは、デバッグ中にオンザフライで逆コンパイルするための .NET Reflector の機能のようなものですが、ソースを添付する方法で十分です。

0 投票する
1 に答える
704 参照

java - Crawler4j はシード URL のみにアクセスする

crawler4jrottentomatoes の Web サイトをクロールして構造化データを抽出するために使用しています。私はすべてをセットアップし、プロジェクトのホームページの例で指定されたデフォルトの URL を使用して、すべてが機能しますが、独自のシードを配置すると、アプリケーションは指定した URL のみにアクセスします。私は何か見落としてますか?

0 投票する
2 に答える
680 参照

crawler4j - クラスCrawlConfigでクローラー4jコンパイルエラー-VariableDeclaratorIdが必要

コードはコンパイルされません。JREを1.7に変更しました。コンパイラは Eclipse のクラスを強調表示せず、コンパイラで CrawlConfig が失敗したように見えます。このクラスは、Linux のコマンド ラインから実行する必要があります。

何か案は?

コンパイラ エラー - 説明 リソース パスの場所の種類 トークン "crawlStorageFolder" の構文エラー、このトークンの後に VariableDeclaratorId が必要 zeocrawler.java /zeowebcrawler/src/main/java/com/example 行 95 Java の問題