問題タブ [web-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - URL正規化用のデータセット
私はURLを正規化するプロジェクトに取り組んでいます(つまり、同じWebページにマップする別のURLを識別し、検索エンジンのように冗長性を減らす必要があります)。
そのため、メソッドをテストするために、さまざまなURLを含むデータセットが必要です。正規化データセットへのリンクを提供してください。
私はこのプロジェクトをC#で実装しているので、提案をお願いします。前もって感謝します。
java - Web スクレイピングまたは Web マイニング用の Java API
Web スクレイピングに適した Java API を探しています。WEB-Harvest api http://web-harvest.sourceforge.net/usage.phpを試しましたが、少し不格好だと思います。他の提案はありますか?
python - 高速インターネット クローラー
大規模なデータ マイニングを実行したいと考えています。このためには、高速クローラーが必要です。必要なのは、Web ページをダウンロードし、リンクを抽出して再帰的にたどることだけですが、同じ URL に 2 回アクセスする必要はありません。基本的に、ループは避けたいです。
Python で既にクローラーを作成しましたが、遅すぎます。100Mbit 回線を飽和させることができません。最高速度は ~40 URL/秒です。そして、何らかの理由で、より良い結果を得るのが難しい. Pythonのマルチスレッド/ソケットに問題があるようです。Python のガベージ コレクターでも問題が発生しましたが、それは解決可能でした。ところで、CPUはボトルネックではありません。
では、可能な限り高速なクローラーを作成するには何を使用すればよいでしょうか?また、クロール中のループを回避するための最善の解決策は何でしょうか?
multiprocessing
編集: 解決策は、threading
モジュールを結合することでした。最良の効果を得るには、プロセスごとに複数のスレッドで複数のプロセスを生成します。1 つのプロセスで複数のスレッドを生成することは効果的ではなく、スレッドが 1 つだけの複数のプロセスが大量のメモリを消費します。
java - Webマイニング、スクレイピング、クロール?どのツール/ライブラリを使用する必要がありますか?
一部のWebページをクロールしてHTMLとして保存したいと思います。たとえば、何百もの人気のあるWebサイトにクロールして、そのフロントページと「About」ページを保存するだけです。
私は多くの質問を調べましたが、WebクロールまたはWebスクレイピングの質問からこれに対する答えは見つかりませんでした。
ソリューションを構築するには、どのライブラリまたはツールを使用する必要がありますか?または、これを処理できる既存のツールもありますか?
json - Google は JSON フォームのクエリ結果を提供しますか?
Google を使用して Web マイニング タスクを実行しています。
通常の Google 検索エンジンを使用すると役立つかもしれませんが、それでも Web ページを分析する必要があります。
私は尋ねたい:
Google はクエリ結果を JSON 形式で提供しますか?
PS:
Google Custom Search という 1 つの場所を知っていますが、無料ユーザーのクエリ量は限られているため、私のニーズを満たすことはできません。
それで、他の解決策を知っている人はいますか?
java - Web ページからテキスト コンテンツを抽出する方法は?
さまざまな Web ページからテキスト情報を取得し、それを 1 つのページに要約できるアプリケーションを Java で開発しています。アプリケーションは、これらの各ページから重要なポイントを抽出し、1 つのニュースとしてまとめることになっています。このアプリケーションは、Web コンテンツ マイニングの概念に基づいています。この分野の初心者として、どこから始めればよいかわかりません。 .私は、このアプリケーションを構築する最初のステップとしてノイズ除去を説明する研究論文を調べました。
したがって、ニュース Web ページが与えられた場合、最初のステップは、ハイパーリンク、広告、役に立たない画像などを除外して、ページから主要なニュースを抽出することです。私の質問は、どうすればこれを行うことができますか? Web コンテンツ マイニングを使用したこのような種類のアプリケーションの実装を説明する優れたチュートリアルを教えてください。または、少なくともそれを達成する方法のヒントを教えてください。
java - Webページから広告や無駄なリンクを除いたメインコンテンツを抽出するには?
重複の可能性:
Web ページからテキスト コンテンツを抽出する方法は?
私はたくさん検索しましたが、探しているものを見つけることができませんでした.実際には、Webページからデータを抽出したい(ニュースページの記事のような主要なデータのみ).グーグルで、オープンソースソフトウェアをたくさん見つけました. bottlepipe、Jtidyなどのようなものですが、それを行うために独自のコードを書きたいと思っています。Javaでプログラミングを行っており、Javaで実装したいと考えているため、オープンソースライブラリを使用せずにこれを行う方法はありますか?
このための良いチュートリアルを教えてもらえますか?
java - ニュース Web ページからメイン コンテンツを抽出するのが難しい
ニュース Web ページからメイン コンテンツ (リンク、広告などを除く) を抽出する必要があります。Web でそれについて読んだことがありますが、そのためには html ページを解析し、html タグからコンテンツを選択する必要があることを知りました。 java.swing.* で利用可能な Htmleditorkit を使用して、html ファイルを入力として受け取り、Web ページからテキストを抽出するコードを作成しました。
しかし、私の問題は、ニュース Web ページの記事のように Web ページからメイン コンテンツのみを選択する方法を理解できないことです。
また、構文解析の方法に問題がないか、または Jsoup、Jtidy などのオープン ソース ライブラリを使用する必要があるかを知りたいです。同じことのために。
私を助けて、私が間違っているところを修正してください。
java - Windows にボイラーパイプをインストールするには?
Windows で Netbeans を使用してボイラーパイプを使用する方法を誰か教えてもらえますか? 最初にJavaコードを教えていただければ幸いです。