問題タブ [websphinx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
19177 参照

java - ウィキペディア全体をクロールする方法は?

WebSphinxアプリケーションを試しました。

wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。

したがって、実際にウィキペディア全体をクロールする方法は?誰かがいくつかのガイドラインを教えてもらえますか?具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか?

誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか?

0 投票する
1 に答える
205 参照

java - 正規表現テストプログラムで作業していますが、WebSprinx crwaler では作業していません

Webページで機能する正規表現マッチングのコードは次のとおりです。

しかし、正規表現をテストしているクローラー コードでは同じコードが機能しません。私のクローラー コードは次のとおりです:(私は Websphinx を使用しています)

これは、クローラーを実行するための私のコードです:

クローラーコードについて少し詳しく説明します。shouldvisit(Link link)リンクにアクセスするかどうかをフィルタリングします。visit(Page page)ページを取得したときに何をするかを決定します。

上記の例では、test.txt と content に同じ文字列が含まれています。

0 投票する
1 に答える
499 参照

java - Webクローラーがページをクロールしているときにユーザー名とパスワードを入力してフォーム認証を行う方法

これを行うためにwebsphinxをダウンロードしましたが、ウェブサイトのユーザー名とパスワードを尋ねてから、ユーザー名とパスワードをウェブサイトに送信する必要があります。認証されると、内部リンクとサブリンクのクロールが開始され、エンドページの静的データがに保存されます。エクセルファイル。これを行う他の方法やクローラーはありますが、Javaのみです。