問題タブ [cascading]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop カスケード トップ N タプルを取得する方法
カスケードが初めてで、並べ替え/順序に基づいて上位 N 個のタプルを取得する方法を見つけようとしています。たとえば、人々が使用している名前の上位 100 位を知りたいとします。
Teradata SQLで同様にできることは次のとおりです。
これはhadoop pigで似ています
SQL や Pig で実行するのは非常に簡単に思えますが、カスケードで実行する方法を見つけるのに苦労しています。お知らせ下さい!
filter - カスケードでの出力の結合
カスケードを使用して、さまざまなドメイン名のログ ファイルを分析しています。フィルタリング後の出力レポートの例を次に示します。
www.google.nl 3
www.google.it 3
www.google.com.co 3
www.google.com.hk 3
www.google.co.jp 3
「google」を含むすべてのドメインを 1 行にグループ化または結合したいと考えています。出力レポートには、すべての Google ドメインに対して 1 行のみが含まれます。このようなもの:
www.google.com 15
また
グーグル 15
これは可能だと思いますか?何か案は?
java - Java 内から SQOOP を使用して、MySQL から Hadoop ジョブへの読み取り/書き込みを行うことは可能ですか?
私は現在、JDK1.7 を使用してコンパイルし、Cascading 1.2 (まもなく 2.1 にアップグレード予定) を使用して Hadoop ジョブを作成および実行し、Hadoop の Cloudera ディストリビューション (0.20.2-cdh3u3) を使用するプロジェクトに取り組んでいます。
カスケード/Hadoop ジョブを変更して、MySQL データベースとの間ですべてのデータを読み書きする方法を検討しています。SQOOPはそれを処理できるようです。
ただし、これまで見てきたことから、Java でこれを行う方法に関する情報やドキュメントはほとんどありません (SQOOP は主に、シェル内から呼び出されるバッチ ジョブに使用されることになっていることを理解しています)。私のために働いた。SQOOP 1.4 を使用して、JDK1.6 を使用するようにプロジェクトを切り替えてみましたが、これが必要であると思われます (ただし、プロジェクトの他の部分が壊れます) が、それでも機能しませんでした。
私が達成しようとしていることが可能かどうかは誰にもわかりますか? 他の人々はこの問題にどのように対処していますか? SQOOP2 のリリースは役に立ちますか?
org.apache.sqoop.tool.ExportTool を実行して CSV をテーブルにエクスポートしようとしたときに表示されるエラーの種類は次のとおりです。
(ほとんどの場合) クラス ローダーの問題が原因で、javac プロセッサを初期化できません: java.lang.NoClassDefFoundError: com/sun/tools/javac/processing/JavacProcessingEnvironment
注: \tmp\sqoop-my.name\compile\9031edc8e43167c10f9f895b64aa79d5\MyTableName.java は、非推奨の API を使用またはオーバーライドします。
エクスポート ジョブの実行中に IOException が発生しました: java.io.IOException: jar \tmp\sqoop-my.name\compile\9031edc8e43167c10f9f895b64aa79d5\MyTableName.jar を JVM にロードできませんでした。(クラス MyTableName が見つかりませんでした。)