問題タブ [websphinx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - ウィキペディア全体をクロールする方法は?
WebSphinxアプリケーションを試しました。
wikipedia.orgを開始URLとして指定すると、それ以上クロールされないことに気付きました。
したがって、実際にウィキペディア全体をクロールする方法は?誰かがいくつかのガイドラインを教えてもらえますか?具体的にそれらのURLを見つけて、複数の開始URLを配置する必要がありますか?
誰かがWebSphinxのAPIを使用したチュートリアルで良いウェブサイトの提案がありますか?
java - 正規表現テストプログラムで作業していますが、WebSprinx crwaler では作業していません
Webページで機能する正規表現マッチングのコードは次のとおりです。
しかし、正規表現をテストしているクローラー コードでは同じコードが機能しません。私のクローラー コードは次のとおりです:(私は Websphinx を使用しています)
これは、クローラーを実行するための私のコードです:
クローラーコードについて少し詳しく説明します。shouldvisit(Link link)
リンクにアクセスするかどうかをフィルタリングします。visit(Page page)
ページを取得したときに何をするかを決定します。
上記の例では、test.txt と content に同じ文字列が含まれています。
java - Webクローラーがページをクロールしているときにユーザー名とパスワードを入力してフォーム認証を行う方法
これを行うためにwebsphinxをダウンロードしましたが、ウェブサイトのユーザー名とパスワードを尋ねてから、ユーザー名とパスワードをウェブサイトに送信する必要があります。認証されると、内部リンクとサブリンクのクロールが開始され、エンドページの静的データがに保存されます。エクセルファイル。これを行う他の方法やクローラーはありますが、Javaのみです。