“scalding”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

858 参照

scala - 連続したレコードを比較する

スキーマを作成するときに、 scaldingで連続したレコードを比較する方法を知っている人はいますか? チュートリアル 6 を見ていて、レコード #2 のデータがレコード #1 (すべてのレコード) より大きい場合、その人の年齢を出力したいとします。

例えば：

編集: コードを見て、それが Scala 列挙であることに気付いたので、私の質問は scala 列挙でレコードを比較する方法ですか?

2013-06-16T05:01:49.593

0 投票する

1 に答える

84 参照

scala - マップされたペアが消滅するのはなぜですか?

ここでは、行列内のベクトルのペア間の Jaccard 類似度を計算する例を理解しようとしています。

最後のコメントでゼロ以外の値が言及されているのはなぜですか? 私の知る限り、._2関数は最初の要素とは関係なく、ペアの 2 番目の要素を選択します。(0, x)ペアはどの時点で消去されますか?

scala scalding

2013-07-02T04:02:14.220

0 投票する

1 に答える

10295 参照

scala - scalaでgzipファイルを解凍して読み取る

Scala では、含まれているテキストfile.gzを処理できるように解凍するにはどうすればよいですか? ファイルの内容を変数に格納するか、後でプログラムが読み取れるようにローカルファイルとして保存することに満足しています。

具体的には、圧縮されたログデータを処理するために Scalding を使用していますが、Scalding はそれらをで読み取る方法を定義していませんFileSource.scala。

scala gzip scalding

2013-07-02T22:00:45.137

0 投票する

1 に答える

2141 参照

twitter - Scalding: groupBy('field){.size} の後、他のフィールドを保持する方法は?

したがって、入力データには id1 と id2 の 2 つのフィールド/列があり、コードは次のとおりです。

出力結果は、(私が想定する) 2 つのフィールドになります: id2 * サイズ。id2 とグループ化された id1 の値を保持し、それを別のフィールドとして追加することが可能かどうかを調べることに少し行き詰まっていますか?

twitter cascading scalding

2013-07-06T22:02:10.807

0 投票する

2 に答える

1237 参照

scalding - Scalding の複数の入力ファイル

s3に保存されている大量のテキストファイルを処理したい。残念ながら、メソッドコードが大きくなりすぎて java.lang.RuntimeException がスローされるため、単純に MultipleTextLineFiles ソースと一緒にリストを使用することはできません。

私の最後の試みは、ファイルのリストを含むテキストファイルを含むjarファイルを出荷することでした。これは、「scala.io.Source.fromURL(getClass.getResource(filename)).getLines().toSeq」を使用して読み取られますが、これは失敗しますNoSuchElementException がスローされます。

助言がありますか？

scalding

2013-07-26T13:35:39.597

0 投票する

0 に答える

795 参照

scala - 逆索引の構築がJavaヒープ・サイズを超えています

これは非常に特殊なケースかもしれませんが、しばらく頭を悩ませた後、Stackoverflow コミュニティの助けを借りようと思いました。

大規模なデータセット (大規模なシステムからの 1 日分のデータ) の逆インデックスを構築しています。転置インデックスの構築は、Hadoop 上の map reduce ジョブとして実行されます。逆索引は、scala を使用して作成されます。転置インデックスの構造は次のとおりです。{key:"New", ProductID:[1,2,3,4,5,...]}これらは avro ファイルに書き込まれます。

このプロセス中に、Java ヒープサイズの問題が発生します。その理由は、上で示した「New」のような用語には、多数の productId(s) が含まれているためだと思います。私のScalaコードで問題が発生する可能性がある大まかな考えがあります：

そして、これが私がこの方法を使用する方法です（多くの場所で使用されますが、同じコード構造とログインが使用されます）

textPipeDumpMultipleTextLineフィールドオブジェクトをやけどしている

そのテキスト行から必要なフィールドを分割して取得するケースクラスがあり、それがオブジェクトですss

ここに私のスタックトレースがあります:

小さなデータセットに対してマップ削減ジョブを実行すると、エラーが発生しません。つまり、データが増加すると、New や old などの単語のインデックスを作成する items/product_id の数が大きくなり、ヒープサイズがオーバーフローすることになります。

したがって、問題は、Java ヒープサイズのオーバーフローを回避し、このタスクを達成する方法です。

scala hadoop avro scalding

2013-07-31T20:36:54.547

0 投票する

3 に答える

1320 参照

scala - Scalding サンプル WordCount ローカルモード

Scalding サンプルの単語カウントの例を実行しようとしています。手順については、この github リンクをたどりました:- https://github.com/twitter/scalding/wiki/Getting-Started

しかし、私は ClassNotFoundException を取得しています。以下は私のスタックトレースです:-

問題がどこにあるのか正確に教えてください。

ありがとう。

scala twitter hadoop noclassdeffounderror scalding

2013-08-21T23:54:58.543

0 投票する

2 に答える

808 参照

java - Scala-Scalding の合計リストの代わりとなるものは何ですか?

大規模なリストを維持する次のコードがあります。ここで行うことは、データストリームを調べて逆インデックスを作成することです。Twitter scalding api を使用し、dataTypePipe は TypedPipe のタイプです

シリアル化の問題により、scala リストを Java リストに変換し、avro を使用して次のように記述します。

しかし、問題は、リストに多数の情報が保持されているため、Java ヒープの問題が発生することです。サミングもこの問題の一因だと思います

ですから、私の質問は、この状況を回避するために何ができるかです。

java scala mapreduce scalding

2013-08-26T01:29:39.937

問題タブ [scalding]

Reference