問題タブ [common-crawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - マッパーからログを記録するにはどうすればよいですか? (commoncrawl を使用した Hadoop)
「大衆のためのMapreduce 」チュートリアルのcommoncrawlサンプルコードを使用しています。マッパーに変更を加えようとしていますが、文字列を出力に記録できるようにしたいと考えています。noSQL データベースをセットアップして出力をそこにプッシュすることを検討していますが、良い解決策とは思えません。Javaからこの種のロギングを行う標準的な方法は何ですか?
amazon-web-services - 一般的なクロール AWS パブリック データセットにアクセスする
一般的なクロールの公開データ セットのサブセットを参照してダウンロードする必要があります。このページには、データがホストされている場所が記載されています。
s3://aws-publicdatasets/common-crawl/crawl-002/ でホストされている一般的なクロール データを参照してダウンロードするにはどうすればよいですか?
hadoop - HDFS 形式のファイルを S3 からローカルにコピーする
Amazon EMR と commoncrawl を使用してクロールを実行しています。EMR は、出力をバイナリのような形式で Amazon S3 に書き込みます。それをローテキスト形式でローカルにコピーしたいと思います。
どうすればそれを達成できますか? 最善の方法は何ですか?
通常、copyToLocal を Hadoop することはできますが、Hadoop に直接アクセスすることはできず、データは S3 にあります。
php - 最初の 100 行を読む
次のコードを見てください。
wcmapper.php (Hadoop ストリーミング ジョブのマッパー)
wceducer.php (サンプル Hadoop ジョブのリデューサー スクリプト)
このコードは、commoncrawl データセットで PHP を使用した Wordcount ストリーミング ジョブ用です。
ここでは、これらのコードは入力全体を読み取ります。これは私が必要としているものではありません。最初の 100 行を読み取って、テキスト ファイルに書き込む必要があります。私は Hadoop、CommonCrawl、および PHP の初心者です。それで、どうすればこれを行うことができますか?
助けてください。
amazon-ec2 - Commoncrawl.org WARC.GZ S3 データを Spark で開く方法
Spark シェルから Amazon パブリック データセット リポジトリの commoncrawl ファイルにアクセスしたいと考えています。ファイルはWARC.GZ形式です。
次に、mapPartitions 関数内で WARC.GZ 形式を読み取る関数を実装します。これはそれを行うための良いアプローチですか?私は Spark プラットフォームにかなり慣れていないため、commoncrawl コーパスのごく一部を使用して小さなデモ アプリケーションを実装したいと考えていました。ここのスレッドで mapPartitions が使用されているのを見ました。
私は最初の試みで、sc.textFile("s3://....").take(1) を使用して自分のコンピューターから直接ファイルを開こうとしましたが、アクセス拒否エラーが発生しました。S3 amazon パブリック リポジトリ ファイルは、EC2 インスタンスからのみアクセスできますか?
java - commoncrawl キーワード検索スクリプトを Hadoop EMR スクリプトに変換する
EC2 から実行され、出力を s3 に正常に保存するキーワード検索スクリプトを作成しました。ただし、シングルスレッドなので遅いです。カスタム jarを使用して EMR で実行したい。EMR で実行できるように、誰かがこれを Hadoop スクリプトに変換してくれませんか。
私はhadoopが初めてです。次のリポジトリを試してみましたが、うまくいきませんでした。
https://github.com/commoncrawl/cc-warc-examples
https://github.com/commoncrawl/example-warc-java
次に、これら 2 つのリポジトリを混合して、次のスクリプトを作成しました。
common-crawl - Web Data Commons から特定の Web サイトのデータを取得する手段は?
Web Data Commons ダンプ内の興味深いデータを試しています。私のマシンで(並行して)grepするのに1日かかります。カバーされている Web サイトのインデックスと、それらのサイトから具体的に抽出する機能はありますか?