問題タブ [common-crawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop プロセスの WARC ファイル
Hadoop のファイル分割と複数のマッパーに関する一般的な質問があります。私は Hadoop を初めて使用し、最適なパフォーマンスを得るためにセットアップする方法を理解しようとしています。私のプロジェクトは現在、GZIP された WARC ファイルを処理しています。
現在の InputFileFormat を使用すると、ファイルは 1 つのマッパーに送信され、分割されません。これが暗号化されたファイルの正しい動作であることを理解しています。ジョブを分割してより多くのマッパーを使用できるようにするために、ジョブを実行する前の中間ステップとしてファイルを復号化すると、パフォーマンス上の利点はありますか? それは可能でしょうか?マッパーを増やすとレイテンシーのオーバーヘッドが増えますか、それともマッパーを 1 つにする方がよいでしょうか? ご協力いただきありがとうございます。
java - 疑問を持つ一般的なクロールの例
一般的なクロールの例を実行して、Warc ファイルから URL と電子メールを抽出しようとしています。一つだけ疑問があります。抽出した電子メールが URL に属しているか、他の Web サイトに属しているかにかかわらず、これは紛らわしい部分です。
助けてください。この混乱をどのように解決できますか?
私が行ったことは次のとおりです。WordCount の一般的なクロールの例を使用して、URL を抽出してから電子メールを送信するように設定しました。抽出後、ファイルに保存されます。
それは抽出のための単純なロジックです。しかし、見つかった URL と見つかった電子メールが互いに対応しているとどのように信じることができるでしょうか?
python - mrjob を使用した企業名マッチング Common Crawl
会社名と電話番号、住所、電子メールなどの詳細のリストがあります。company_url を取得したい。Google API を使用してリクエストを行うことを考えましたが、コストがかかることがわかりました。
検索した後、ウェブサイトのダムデータに関して、Googleにやや近い Common_Crawl を見つけました。
私たちの電話番号を Common_Crawl で利用可能な電話番号に実際にマップするWeb サイトを見つけました。
会社名を使用してそれらを一致させる方法を見つける必要があります。
Common_crawl データを使用して会社名でマッピングできる方法はありますか。会社名ごとに 32 億 5000 万個の common_crawl レコードを調べたくありません。
nutch - Apache Nutch を使用して一般的なクロール データを取得する
一般的なクロール Web サイトで自分のデータを見つけ、そこからそのデータをダウンロードします
そして今、Apache Nutch を使用してそのデータを取得する必要がありますが、方法がわかりません。
このファイルは warc ファイル形式です。