問題タブ [scalding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop で s3 を読み取るときの java.lang.NullPointerException (Scalding)
Scalding / Hadoop で s3 を読み取ろうとすると、奇妙な NPE が発生します。パスは 100% 正しいです。
この質問をするのは、Google にとって驚くほど難しいためです。このエラーが発生するたびに、どうやって解決したか忘れてしまいます。SOに投稿して、自分でGoogleできるようにします。
scala - Scalding チュートリアル: com.twitter.scalding.InvalidSourceException: 1 つ以上のパスからデータが欠落しています
Hadoop 2.2 を単一ノードにインストールして、Scalding チュートリアルのパート 1 を次のコマンドで実行してみます。
https://github.com/Cascading/scalding-tutorial/
チュートリアルを実行する前に、必要なファイルhello.txt
を HDFS にコピーしました。
チュートリアルが入力ファイルを見つけられないようです:
それを機能させる方法はありますか?
scala - Scalding チュートリアル: HDFS rsync エラー
Hadoop で実行された失敗した Scalding の出力を理解するのを手伝ってください。
git から最新の Scalding ディストリビューションを取得しました: git clone https://github.com/twitter/scalding.git
sbt assembly
ディレクトリから後、scalding
コマンドでチュートリアルを実行しようとしました:
その結果、次のエラーが発生しました。
* アップデート *
ホストを変更した後scald.rb
、次の認証の問題が発生します。
RSA キーのフィンガープリントは fa:41:31:ab:b0:46:08:8f:2b:75:0a:18:24:f9:d5:ec です。接続を続行しますか (はい/いいえ)? はい 警告: 「node7.test.net」(RSA) が既知のホストのリストに永久に追加されました。test@node7.test.net のパスワード: 「はい」または「いいえ」と入力してください: 権限が拒否されました。もう一度お試しください。test@node7.test.net のパスワード:
正しいパスワードを入力しましたが、認証エラーが続きます。どのように設定すればよいrsync
ですか?
scala - HDFS を使用した Scalding チュートリアル: 次の 1 つ以上のパスにデータがありません: List(tutorial/data/hello.txt)
コマンドで Scalding チュートリアル ( https://github.com/Cascading/scalding-tutorial/ ) を実行しようとすると、ssh と rsync を構成した後:
$ scripts/scald.rb --hdfs チュートリアル/Tutorial0.scala
次のエラーが表示されます。
このエラーは、ファイル tutorial/data/hello.txt が実際に存在するにもかかわらず発生します。
これを修正する方法は?
標準出力:
scala - Scalding DSL はどのように通常の Scala コードに変換されますか?
Scalding DSL が通常の Scala コードにどのように変換されるかを調べるのを手伝ってください。
https://github.com/twitter/scalding/wiki/Fields-based-API-Reference#sortBy
例えば:
質問:
map,
Scalding のreduce、groupBy,
sort、および `scanLeftに独自の関数を追加するには、どのような規則に従う必要がありますか?- Scalding は、`'inpFld -> 'outFld などのフィールドの式を Scala コードにどのように変換しますか?
- Scalding トランスレータが作成するデータ構造/関数は何ですか? Scalding のソース コードのどこでそれらを見つけることができますか?
ありがとう!
eclipse - sbt プロジェクトで Scalding への依存関係を宣言するには?
build.sbt
自分のScaldingベースのプロジェクト用のファイルを作成する方法を見つけようとしています。
Scalding ソース構造にbuild.sbt
ファイルがありません。代わりに、project/Build.scala
ビルド定義があります。
自分の sbt プロジェクトを Scalding と統合する正しい方法は何でしょうか。後でsbt-eclipse
プラグインを使用して Eclipse にインポートすることもできますか?
アップデート:
次のコードの場合:
これでbuild.sbt
:
エラーが発生します:
更新 2
やった後git clone git@github.com:twitter/scalding.git their repository
でsbt publishLocal
も、同じコンパイルエラーが発生します。
しかし、あなたが提案した2行を追加build.sbt
すると、コードをコンパイルできました。したがって、以下build.sbt
は本当に機能します、ありがとう!
「sbt eclipse」は、Eclipse でコンパイルされない Eclipse プロジェクトを作成し、次のエラーを報告します。
scala - やけど:文字列をペアで比較しますか?
Scalding では、次のことを行う必要があります。
- 文字列フィールドを最初の 3 文字でグループ化する
edit-distance
メトリックを使用して、すべてのグループのすべてのペアの文字列を比較します ( http://en.wikipedia.org/wiki/Edit_distance )- レコードがある CSV ファイルに結果を書き込みます
string; string; distance
文字列をグループ化するには、次の例のように map
andを使用します。groupBy
その結果、次のようになります。
aaa
さて、この例では、このリストのキーを持つ文字列の編集距離を計算する必要があります。
このリストの「bbb」キーを持つすべての文字列の次:
等
独自の関数に置き換える必要があるすべてのグループのすべての文字列間の編集距離を計算するにはtoList
、どうすればよいですか? また、関数の結果を CSV ファイルに書き込むにはどうすればよいですか?
ありがとう!
アップデート
List
スカルディングからの入手方法はPipe
?
toList
別のものを返すだけPipe
なので、すべてを使用することはできません: