問題タブ [scalding]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

180 問題

0 投票する

0 に答える

40 参照

scala - RichPipes に参加するときに最大値を選択する

RichPipes次のフィールドのリストがあります。

名前：String
参加時間:Long
価値：Int

reduce を使って順番に結合したい。に参加するとき、RichPipes私は 1 つのフィールドのみを保持しvalueたいので、そこにジョイントからの最大値を含めたいと思いますRichPipes。どうすればいいですか？

2014-07-17T13:54:10.963

0 投票する

1 に答える

509 参照

java - libjars に完全なクラスパスを書き込まずに、scalding/hadoop ジョブでスリム jar を実行する方法

libjars を使用せずにクラスパスを必要とする scalding ジョブを実行し、各 jar をコンマ区切りで明示的に記述する方法はありますか。

すべての jar を lib に入れたいのですが、すべての jar ではなく、単に -libjars=./lib/* と書きます。

古典的な方法はありますか??

scalding バージョン scalding-core_2.10 0.8.5 を使用

Hadoop バージョン 2.0.0-cdh4.5.0

PS私はjarとlibをパッケージ化するためにmavenを使用しています

java hadoop jar maven-3 scalding

2014-07-22T14:27:20.223

0 投票する

1 に答える

390 参照

scala - groupBy toList 要素の順序

私はいくつかのフィールドを持つ RichPipe を持っています。

「性別」でグループ化し、タプルのリスト (「体重」と「年齢」) を取得する必要があります。次に、各グループのリストで scanLeft 操作を実行し、「性別」と「結果」を持つパイプを取得します。私は現在これを行うことで

次に、2 つのリストを一緒に圧縮します。これが最善の方法であるかどうかはわかりません。また、リスト内の値の順序が同じであるかどうかもわかりません。そのため、2 つのリストを圧縮するときに、タプルが間違って混同されません。値。ドキュメントにはこれについて何も見つかりませんでした。

scala hadoop mapreduce cascading scalding

2014-07-23T10:49:50.253

0 投票する

2 に答える

1573 参照

scala - Scalding: ヘッダー付きのコンマ区切りデータの解析

次の形式のデータがあります。

Scalding で解析する最良の方法は何ですか? 全部で 50 を超えるコラムがありますが、そのうちのいくつかにしか興味がありません。Csv("file")でインポートしてみましたが、うまくいきません。

頭に浮かぶ唯一の解決策は、TextLine を使用して手動で解析し、オフセット == 0 の行を無視することです。しかし、より良い解決策があるはずです。

scala parsing hadoop mapreduce scalding

2014-07-28T16:47:42.827

0 投票する

0 に答える

291 参照

algorithm - Scalding: リストのメモリ内計算を減らす方法は?

Scalding では、類似した文字列のペア間の編集距離を見つけようとします。全体として、CSV ファイルには 10 000 000 個の文字列があります。計算を減らすために、次のアルゴリズムを使用します。

最初の 3 文字をキーとして使用して、すべての文字列をグループに分割します
すべてのグループで 2 つの文字列の組み合わせを生成する
すべてのグループの文字列のすべてのペアの編集距離を見つけます (以下のコードを参照)

HDFS でこのアルゴリズムを実行すると、1 000 000 の文字列で動作します。10,000,000 個の文字列を使用すると、「マップ」ジョブがノードよりも多くの物理メモリを割り当てようとしていることにノードマネージャが文句を言います。コードで膨大な数の組み合わせが作成された場合に、この状態が発生することを理解してい.groupBy('key) { _.mapList ...}ます。確かに、このアルゴリズムは実際にはスケーリングしません。

このタスクの計算を減らすための他のアプローチを教えてください。

何か案は？

algorithm scala hadoop scalding

2014-07-31T16:07:58.313

0 投票する

2 に答える

412 参照

scalding - Scalding は、Parquet を使用した述語プッシュダウンによるレコードフィルタリングをサポートしていますか?

フィルターに失敗するレコードを読み取る必要がないため、明らかに速度が向上します。Spark がサポートしていることはわかりますが、Scalding を使用した方法に関するドキュメントは見つかりませんでした。

scalding parquet

2014-08-03T14:10:27.953

0 投票する

0 に答える

135 参照

hadoop - Cascading で TextLine を使用して非常に長い行をロードする

カスケードで非常に大きな行を含むファイルをロードするために、カスケーディングで TextLine を使用しています。行は非常に長く、平均で約 30Mb で、それより長いものもあります。ジョブをローカルで実行してテストすると正常に動作しますが、クラスターで実行すると、一定期間の集中的なクランチの後に失敗します。次のようなエラーが発生します。

また、古いファイルハンドルについて不平を言うこともあります。読み込もうとしているファイルは間違いなくそこにあります。誰か助けてくれませんか？

hadoop mapreduce cascading scalding mapr

2014-08-14T18:15:51.563

1 2 3 4 5 6 7 8 9 10

問題タブ [scalding]

Reference