問題タブ [scalding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
40 参照

scala - RichPipes に参加するときに最大値を選択する

RichPipes次のフィールドのリストがあります。

  • 名前:String
  • 参加時間:Long
  • 価値:Int

reduce を使って順番に結合したい。に参加するとき、RichPipes私は 1 つのフィールドのみを保持しvalueたいので、そこにジョイントからの最大値を含めたいと思いますRichPipes。どうすればいいですか?

0 投票する
1 に答える
509 参照

java - libjars に完全なクラスパスを書き込まずに、scalding/hadoop ジョブでスリム jar を実行する方法

libjars を使用せずにクラスパスを必要とする scalding ジョブを実行し、各 jar をコンマ区切りで明示的に記述する方法はありますか。

すべての jar を lib に入れたいのですが、すべての jar ではなく、単に -libjars=./lib/* と書きます。

古典的な方法はありますか??

scalding バージョン scalding-core_2.10 0.8.5 を使用

Hadoop バージョン 2.0.0-cdh4.5.0

PS私はjarとlibをパッケージ化するためにmavenを使用しています

0 投票する
1 に答える
390 参照

scala - groupBy toList 要素の順序

私はいくつかのフィールドを持つ RichPipe を持っています。

「性別」でグループ化し、タプルのリスト (「体重」と「年齢」) を取得する必要があります。次に、各グループのリストで scanLeft 操作を実行し、「性別」と「結果」を持つパイプを取得します。私は現在これを行うことで

次に、2 つのリストを一緒に圧縮します。これが最善の方法であるかどうかはわかりません。また、リスト内の値の順序が同じであるかどうかもわかりません。そのため、2 つのリストを圧縮するときに、タプルが間違って混同されません。値。ドキュメントにはこれについて何も見つかりませんでした。

0 投票する
2 に答える
1573 参照

scala - Scalding: ヘッダー付きのコンマ区切りデータの解析

次の形式のデータがあります。

Scalding で解析する最良の方法は何ですか? 全部で 50 を超えるコラムがありますが、そのうちのいくつかにしか興味がありません。Csv("file")でインポートしてみましたが、うまくいきません。

頭に浮かぶ唯一の解決策は、TextLine を使用して手動で解析し、オフセット == 0 の行を無視することです。しかし、より良い解決策があるはずです。

0 投票する
0 に答える
291 参照

algorithm - Scalding: リストのメモリ内計算を減らす方法は?

Scalding では、類似した文字列のペア間の編集距離を見つけようとします。全体として、CSV ファイルには 10 000 000 個の文字列があります。計算を減らすために、次のアルゴリズムを使用します。

  1. 最初の 3 文字をキーとして使用して、すべての文字列をグループに分割します
  2. すべてのグループで 2 つの文字列の組み合わせを生成する
  3. すべてのグループの文字列のすべてのペアの編集距離を見つけます (以下のコードを参照)

HDFS でこのアルゴリズムを実行すると、1 000 000 の文字列で動作します。10,000,000 個の文字列を使用すると、「マップ」ジョブがノードよりも多くの物理メモリを割り当てようとしていることにノード マネージャが文句を言います。コードで膨大な数の組み合わせが作成された場合に、この状態が発生することを理解してい.groupBy('key) { _.mapList ...}ます。確かに、このアルゴリズムは実際にはスケーリングしません。

このタスクの計算を減らすための他のアプローチを教えてください。

何か案は?

0 投票する
2 に答える
412 参照

scalding - Scalding は、Parquet を使用した述語プッシュダウンによるレコード フィルタリングをサポートしていますか?

フィルターに失敗するレコードを読み取る必要がないため、明らかに速度が向上します。Spark がサポートしていることはわかりますが、Scalding を使用した方法に関するドキュメントは見つかりませんでした。

0 投票する
0 に答える
135 参照

hadoop - Cascading で TextLine を使用して非常に長い行をロードする

カスケードで非常に大きな行を含むファイルをロードするために、カスケーディングで TextLine を使用しています。行は非常に長く、平均で約 30Mb で、それより長いものもあります。ジョブをローカルで実行してテストすると正常に動作しますが、クラスターで実行すると、一定期間の集中的なクランチの後に失敗します。次のようなエラーが発生します。

また、古いファイル ハンドルについて不平を言うこともあります。読み込もうとしているファイルは間違いなくそこにあります。誰か助けてくれませんか?