問題タブ [common-crawl]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

66 問題

0 投票する

1 に答える

627 参照

java - マッパーからログを記録するにはどうすればよいですか? (commoncrawl を使用した Hadoop)

「大衆のためのMapreduce 」チュートリアルのcommoncrawlサンプルコードを使用しています。マッパーに変更を加えようとしていますが、文字列を出力に記録できるようにしたいと考えています。noSQL データベースをセットアップして出力をそこにプッシュすることを検討していますが、良い解決策とは思えません。Javaからこの種のロギングを行う標準的な方法は何ですか?

2012-12-29T22:53:26.903

0 投票する

4 に答える

8431 参照

amazon-web-services - 一般的なクロール AWS パブリックデータセットにアクセスする

一般的なクロールの公開データセットのサブセットを参照してダウンロードする必要があります。このページには、データがホストされている場所が記載されています。
s3://aws-publicdatasets/common-crawl/crawl-002/ でホストされている一般的なクロールデータを参照してダウンロードするにはどうすればよいですか?

amazon-web-services amazon-s3 amazon-ec2 amazon common-crawl

2013-05-20T12:27:38.143

0 投票する

0 に答える

128 参照

hadoop - HDFS 形式のファイルを S3 からローカルにコピーする

Amazon EMR と commoncrawl を使用してクロールを実行しています。EMR は、出力をバイナリのような形式で Amazon S3 に書き込みます。それをローテキスト形式でローカルにコピーしたいと思います。

どうすればそれを達成できますか? 最善の方法は何ですか？

通常、copyToLocal を Hadoop することはできますが、Hadoop に直接アクセスすることはできず、データは S3 にあります。

hadoop amazon-s3 hdfs amazon-emr common-crawl

2013-09-29T22:37:19.020

0 投票する

2 に答える

317 参照

php - 最初の 100 行を読む

次のコードを見てください。

wcmapper.php (Hadoop ストリーミングジョブのマッパー)

wceducer.php (サンプル Hadoop ジョブのリデューサースクリプト)

このコードは、commoncrawl データセットで PHP を使用した Wordcount ストリーミングジョブ用です。

ここでは、これらのコードは入力全体を読み取ります。これは私が必要としているものではありません。最初の 100 行を読み取って、テキストファイルに書き込む必要があります。私は Hadoop、CommonCrawl、および PHP の初心者です。それで、どうすればこれを行うことができますか？

助けてください。

php web-services hadoop web-crawler common-crawl

2013-12-31T09:05:01.970

0 投票する

1 に答える

2055 参照

amazon-ec2 - Commoncrawl.org WARC.GZ S3 データを Spark で開く方法

Spark シェルから Amazon パブリックデータセットリポジトリの commoncrawl ファイルにアクセスしたいと考えています。ファイルはWARC.GZ形式です。

次に、mapPartitions 関数内で WARC.GZ 形式を読み取る関数を実装します。これはそれを行うための良いアプローチですか？私は Spark プラットフォームにかなり慣れていないため、commoncrawl コーパスのごく一部を使用して小さなデモアプリケーションを実装したいと考えていました。ここのスレッドで mapPartitions が使用されているのを見ました。

私は最初の試みで、sc.textFile("s3://....").take(1) を使用して自分のコンピューターから直接ファイルを開こうとしましたが、アクセス拒否エラーが発生しました。S3 amazon パブリックリポジトリファイルは、EC2 インスタンスからのみアクセスできますか?

amazon-ec2 amazon-s3 apache-spark common-crawl

2014-11-16T14:10:34.053

0 投票する

0 に答える

199 参照

java - commoncrawl キーワード検索スクリプトを Hadoop EMR スクリプトに変換する

EC2 から実行され、出力を s3 に正常に保存するキーワード検索スクリプトを作成しました。ただし、シングルスレッドなので遅いです。カスタム jarを使用して EMR で実行したい。EMR で実行できるように、誰かがこれを Hadoop スクリプトに変換してくれませんか。

私はhadoopが初めてです。次のリポジトリを試してみましたが、うまくいきませんでした。

https://github.com/commoncrawl/cc-warc-examples

https://github.com/commoncrawl/example-warc-java

次に、これら 2 つのリポジトリを混合して、次のスクリプトを作成しました。

java hadoop amazon-s3 amazon-emr common-crawl

2015-05-20T10:36:33.100

0 投票する

1 に答える

288 参照

common-crawl - Web Data Commons から特定の Web サイトのデータを取得する手段は?

Web Data Commons ダンプ内の興味深いデータを試しています。私のマシンで（並行して）grepするのに1日かかります。カバーされている Web サイトのインデックスと、それらのサイトから具体的に抽出する機能はありますか?

common-crawl

2015-06-27T22:14:39.320

1 2 3 4 5 6 7 8 9 10

問題タブ [common-crawl]

Reference