問題タブ [websphinx]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4 問題

0 投票する

6 に答える

19177 参照

java - ウィキペディア全体をクロールする方法は？

WebSphinxアプリケーションを試しました。

wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。

したがって、実際にウィキペディア全体をクロールする方法は？誰かがいくつかのガイドラインを教えてもらえますか？具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか？

誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか？

2010-02-22T20:01:26.343

0 投票する

1 に答える

205 参照

java - 正規表現テストプログラムで作業していますが、WebSprinx crwaler では作業していません

Webページで機能する正規表現マッチングのコードは次のとおりです。

しかし、正規表現をテストしているクローラーコードでは同じコードが機能しません。私のクローラーコードは次のとおりです:(私は Websphinx を使用しています)

これは、クローラーを実行するための私のコードです:

クローラーコードについて少し詳しく説明します。shouldvisit(Link link)リンクにアクセスするかどうかをフィルタリングします。visit(Page page)ページを取得したときに何をするかを決定します。

上記の例では、test.txt と content に同じ文字列が含まれています。

java html regex websphinx

2011-09-07T18:56:32.230

0 投票する

1 に答える

499 参照

java - Webクローラーがページをクロールしているときにユーザー名とパスワードを入力してフォーム認証を行う方法

これを行うためにwebsphinxをダウンロードしましたが、ウェブサイトのユーザー名とパスワードを尋ねてから、ユーザー名とパスワードをウェブサイトに送信する必要があります。認証されると、内部リンクとサブリンクのクロールが開始され、エンドページの静的データがに保存されます。エクセルファイル。これを行う他の方法やクローラーはありますが、Javaのみです。

java file-io web-crawler websphinx

2011-12-13T09:43:38.280

1 2 3 4 5 6 7 8 9 10

問題タブ [websphinx]

java - ウィキペディア全体をクロールする方法は？

java - 正規表現テストプログラムで作業していますが、WebSprinx crwaler では作業していません

java - Webクローラーがページをクロールしているときにユーザー名とパスワードを入力してフォーム認証を行う方法

Reference