問題タブ [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Crawler4j のセットアップガイド
ウェブサイト、たとえばブログをクロールするようにクローラーをセットアップし、ウェブサイト内のリンクのみを取得して、リンクをテキスト ファイル内に貼り付けたいと考えています。クローラーをセットアップするための手順を順を追って説明してもらえますか? 私はエクリプスを使用しています。
java - ページからすべてのリンクをより迅速にダウンロードするように、crawler4j を取得するにはどうすればよいですか?
私がしていることは:
- ページをクロールする
- ページのすべてのリンクを取得し、それらをリストに入れる
- リストの各リンクにアクセスする新しいクローラーを開始する
- それらをダウンロードする
ページにアクセスしたときにリンクを直接ダウンロードできる、より迅速な方法が必要ですか? どうも!
parsing - データを取得するためのcrawler4Jの効率的な設計
さまざまな Web サイトからデータを取得しようとしています。スタック オーバーフローを検索した後、多くの人がこれを示唆したように、crawler4j を使用しています。以下は私の理解/設計です:
それでは、教えてください。クローラー4Jはステップ1、2、3を実行できますか??? もっと良いデザインが利用できることを提案してください (フィードが利用できないと仮定して) もしそうなら、どうすればよいか教えてください。
ありがとうベンカット
html - クローラー4jを使用してWebサイトをクロールするときにリンクのリンクテキストを取得します
私はクローラー4jを使用してWebサイトをクロールしています。ページにアクセスしたときに、完全な URL だけでなく、すべてのリンクのリンク テキストを取得したいと考えています。これは可能ですか?
前もって感謝します。
java - .jdb 出力を参照しますか?
私はcrawler4jを実行しており、出力はディレクトリにあり/frontier/
ます。このディレクトリ内のファイルは、
- 00000000.jdb
- je.info.0
- je.info.lck
- je.lck
.jdb ファイルはデータを持つ唯一のファイルであり、他の 3 つのファイルのバイト数は 0 です。このデータをどうするかわかりません。Java プログラムは必要なデータをキャプチャしますが、取得したデータを参照する方法がわかりません。(私は Mac を使用しているため、クロスプラットフォームまたは OSX 用のものが望ましいです)
java - ファイルへのパスに hdfs:// プレフィックスを使用すると、ファイルを開くことができるのはなぜですか?
ページをクロールする Hadoop ジョブを作成しています。私が使用しているライブラリは、クロール中にファイル システムを使用してクロール データを保存します。私が使用しているクローラー ライブラリは java.io を使用していますが、HDFS とのインターフェイスにはまったく異なるクラス セットを使用する必要があるため、HDFS を使用するにはライブラリを変更する必要があると確信していました。
しかし、同僚が hdfs://localhost/path/to/storage を使用すると、ストレージ フォルダーへのパスに対してクローラーが機能し、ファイル システムに書き込むことができました。なぜこれが機能するのかを理解しようとしています.hdfs://プレフィックス付きのパスをHDFS上のパスに解決する原因となるhadoopベースのjvmに違いはありますか?
java - Crawler4j の使用中にスレッド「メイン」で例外 java.lang.NoClassDefFoundError: org/apache/http/conn/scheme/SchemeSocketFactory が発生する
私は Crawler4j のサンプル コードを使用していますが、例外があることがわかりました。
ここに私の例外があります:
これが私のコードです:
java - クローラー4jを使用して別のWebページに存在する文字列を検索する方法
私はCrawler4jを使用していますが、処理されたページとして出力を返しています: 10 合計リンクが見つかりました: 369 合計テキストサイズ: 20077 これまでは正常に動作していますが、このページに存在する文字列を検索したいのですが、どうすればこれを達成できますか?私を助けてください
javascript - Crawler4j とトリップアドバイザー
私は、crawler4j を使用して、Tripadvisor のクローラーを作成しています。アイテムのすべてのレビューを収集する必要がありますが、「次の」レビュー (番号付きのもの) へのリンクは、リンクではなく JavaScript 関数に関連付けられています。この関数は、トリップアドバイザーのサーバーのどこかに定義されています。これらの関数を評価して、返されるページを取得する方法はありますか?
java - Crawler4j は、URL リダイレクトで、parentURL として null を指定し、parentDocID としてゼロを指定します。
Crawler4j の最新バージョンを使用して、いくつかのフィード URL をクロールしています。ドキュメント ID とともにいくつかのシード URL を渡しました。また、そのページのコンテンツのみが必要なため、深さをゼロに設定しました。
問題は、これらのシード URL の parentdocid と親 URL を取得できないことです。元の URL に関連付けられているリダイレクトされた URL を知りたいです。
page.getWebURL().getParentUrl();
親URLを取得するために使用しています。
詳細な説明についてはhttp://code.google.com/p/crawler4j/issues/detail?id=163
誰かが同様の問題を抱えていますか?
別の URL で再試行しましたが、結果は同じでした。controller.addSeed("feeds.reuters.com/~r/reuters/bankruptcyNews/~3/es0kEUT8gI0/",321);
出力: -
ParentDocId 0 DocID 322 親ページ null
私はcrawler4jコードを調べて、一時的に問題を修正しました。