問題タブ [common-crawl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - mrjob python を使用して、Comomn クロールの場所を Amazon EMR への入力として与える
mrjob の使用を開始してからわずか数日で、特定の低レベルおよび中レベルのタスクを試しました。[now onwards will be know as CC]
現在、python mrjob を使用して、共通クロールの場所を emr への入力として指定することに行き詰まっています。
私の設定ファイルは次のようになります:
Big thing small :I am trying to get the number of words in a web page of a site
Big thing big: Is my code below
私のコード:
今まではすべて問題ありませんでしたが、実行しようとすると.
コマンド:
エラー:
構成ファイルのリージョンが原因だと思って削除しましたが、新しいエラーが発生します
私の新しい設定ファイル:
次のエラー SSH エラーが表示されます。
ありがとう 、
regex - CommonCrawl Text の壊れた句読点を修正する
Common Crawl (WET
形式) のテキストを処理していますが、見たところ、多くの壊れた句読点があります。これは、元のデータから改行が削除されたことが原因である可能性が最も高いです。
たとえば、 ではThis Massive Rally?The 52
、疑問符とThe
をスペースで区切る必要があります。次の正規表現(Java)でこの問題を修正しようとしました:
ほとんどのケースを適切に処理しますが、 U.S.
bebesU. S.
やbecome など、すべきではない場所にスペースを追加します。www.HiringJobTweets.com
www. HiringJobTweets.com
望ましくない副作用を回避しながら問題を解決する方法はありますか?
python - warc.wet.gz からすべてのペイロードを抽出するにはどうすればよいですか?
Common Crawl のウェット ファイルからテキスト データを抽出しようとしています。現在、Internet Archieve https://github.com/internetarchive/warcの warc パーサーを使用しています。
ただし、この方法では、ペイロードにあるデータの半分未満しか得られません。ファイル内の各ペイロードにあるすべてのデータを提供できる他のより良い方法はありますか?
python - インライン、ローカル、emr、または Hadoop を実行しているかどうかを判断する MRJob
MRJob を使用した EMRで commoncrawl データセットを使用して、数年前からいくつかの古いコードを構築しています。このコードは、MRJob サブクラス マッパー関数内で以下を使用して、ローカルで実行されているか、emr で実行されているかを判断します。
これは機能したことがないか、機能しなくなったようです。self.options.runner はタスクに渡されないため、常にデフォルトの に設定されます'inline'
。問題は、コードがローカルで実行されているか、現在のバージョンの MRJob (v0.5.0) を使用して emr で実行されているかを判断する方法があるかどうかです。
war - 大規模な HTML データセットをアーカイブして取得するにはどうすればよいですか?
私は初心者で、今週末にコンテストに参加する予定です。問題は、大きな HTML データセットのアーカイブと取得に関するもので、私にはわかりません。私の友人は、Web アーカイブと一般的なクロールを使用するよう提案してくれました。HTML データセットを Web アーカイブに変換する方法と、それらをインデックス化する方法を提案してください。前もって感謝します。