問題タブ [scalding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 連続したレコードを比較する
スキーマを作成するときに、 scaldingで連続したレコードを比較する方法を知っている人はいますか? チュートリアル 6 を見ていて、レコード #2 のデータがレコード #1 (すべてのレコード) より大きい場合、その人の年齢を出力したいとします。
例えば:
編集: コードを見て、それが Scala 列挙であることに気付いたので、私の質問は scala 列挙でレコードを比較する方法ですか?
scala - マップされたペアが消滅するのはなぜですか?
ここでは、行列内のベクトルのペア間の Jaccard 類似度を計算する例を理解しようとしています。
最後のコメントでゼロ以外の値が言及されているのはなぜですか? 私の知る限り、._2関数は最初の要素とは関係なく、ペアの 2 番目の要素を選択します。(0, x)ペアはどの時点で消去されますか?
scala - scalaでgzipファイルを解凍して読み取る
Scala では、含まれているテキストfile.gzを処理できるように解凍するにはどうすればよいですか? ファイルの内容を変数に格納するか、後でプログラムが読み取れるようにローカル ファイルとして保存することに満足しています。
具体的には、圧縮されたログ データを処理するために Scalding を使用していますが、Scalding はそれらを で読み取る方法を定義していませんFileSource.scala。
twitter - Scalding: groupBy('field){.size} の後、他のフィールドを保持する方法は?
したがって、入力データには id1 と id2 の 2 つのフィールド/列があり、コードは次のとおりです。
出力結果は、(私が想定する) 2 つのフィールドになります: id2 * サイズ。id2 とグループ化された id1 の値を保持し、それを別のフィールドとして追加することが可能かどうかを調べることに少し行き詰まっていますか?
scalding - Scalding の複数の入力ファイル
s3に保存されている大量のテキストファイルを処理したい。残念ながら、メソッド コードが大きくなりすぎて java.lang.RuntimeException がスローされるため、単純に MultipleTextLineFiles ソースと一緒にリストを使用することはできません。
私の最後の試みは、ファイルのリストを含むテキストファイルを含むjarファイルを出荷することでした。これは、「scala.io.Source.fromURL(getClass.getResource(filename)).getLines().toSeq」を使用して読み取られますが、これは失敗しますNoSuchElementException がスローされます。
助言がありますか?
scala - 逆索引の構築がJavaヒープ・サイズを超えています
これは非常に特殊なケースかもしれませんが、しばらく頭を悩ませた後、Stackoverflow コミュニティの助けを借りようと思いました。
大規模なデータ セット (大規模なシステムからの 1 日分のデータ) の逆インデックスを構築しています。転置インデックスの構築は、Hadoop 上の map reduce ジョブとして実行されます。逆索引は、scala を使用して作成されます。転置インデックスの構造は次のとおりです。{key:"New", ProductID:[1,2,3,4,5,...]}これらは avro ファイルに書き込まれます。
このプロセス中に、Java ヒープ サイズの問題が発生します。その理由は、上で示した「New」のような用語には、多数の productId(s) が含まれているためだと思います。私のScalaコードで問題が発生する可能性がある大まかな考えがあります:
そして、これが私がこの方法を使用する方法です(多くの場所で使用されますが、同じコード構造とログインが使用されます)
textPipeDumpMultipleTextLineフィールドオブジェクトをやけどしている
そのテキスト行から必要なフィールドを分割して取得するケースクラスがあり、それがオブジェクトですss
ここに私のスタックトレースがあります:
小さなデータ セットに対してマップ削減ジョブを実行すると、エラーが発生しません。つまり、データが増加すると、New や old などの単語のインデックスを作成する items/product_id の数が大きくなり、ヒープ サイズがオーバーフローすることになります。
したがって、問題は、Java ヒープ サイズのオーバーフローを回避し、このタスクを達成する方法です。
scala - Scalding サンプル WordCount ローカル モード
Scalding サンプルの単語カウントの例を実行しようとしています。手順については、この github リンクをたどりました:- https://github.com/twitter/scalding/wiki/Getting-Started
しかし、私は ClassNotFoundException を取得しています。以下は私のスタックトレースです:-
問題がどこにあるのか正確に教えてください。
ありがとう。
java - Scala-Scalding の合計リストの代わりとなるものは何ですか?
大規模なリストを維持する次のコードがあります。ここで行うことは、データ ストリームを調べて逆インデックスを作成することです。Twitter scalding api を使用し、dataTypePipe は TypedPipe のタイプです
シリアル化の問題により、scala リストを Java リストに変換し、avro を使用して次のように記述します。
しかし、問題は、リストに多数の情報が保持されているため、Java ヒープの問題が発生することです。サミングもこの問題の一因だと思います
ですから、私の質問は、この状況を回避するために何ができるかです。