問題タブ [cascalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
clojure - Cascalog deffilterop と純粋な clojure の比較
deffilterop の使用と wallet clojure 関数の使用の間に違い、パフォーマンス、またはその他の違いはありますか?
http://nathanmarz.com/blog/introducing-cascalog-a-clojure-based-query-language-for-hado.htmlは、(< ?age2 ?age1) のような clojure 関数を使用してフィルタリングを行うことができると述べていますが、httpsを見て://github.com/nathanmarz/cascalog/wiki/Guide-to-custom-operations (deffilterop is-2? [x] (= x 2)) のような関数を定義できるようです。
だから私の質問は、これら2つのアプローチに違いはありますか?そうでない場合、どちらが優先される構文ですか?
注: また、代わりに defxxxfn のすべての defxxxop 関数が非推奨になっているようです。https://github.com/nathanmarz/cascalog/blob/develop/cascalog-core/src/clj/cascalog/logic/def.clj#L131
cascalog - カスカログ クエリのエコーを無効にする方法
それはハウツーの質問です。Cascalog.playground エリアで単純なクエリを実行すると、多くの情報が表示されます。結果のみを (stdout) に表示する方法。どの設定を更新/変更/追加する必要がありますか?
ありがとう!
hadoop - Cascalog: uberjar を起動し、hadoop をメインにします
次のようなファイルから uberjar をコンパイルしました。
次のように、hadoop でその uberjar を実行します。
$ hadoop jar myStandalone.jar clojure.main
そして私はREPLを取得しますが、そのファイルからは何も実行されません。(:use 'cascalog.api) と (defn bla) を手動で入力する必要があります。なぜそうなるのですか?どうすれば修正できますか?
どうもありがとう!
clojure - 「ClassCastException java.lang.Character を clojure.lang.Named にキャストできません」とはどういう意味ですか?
おもちゃのcascalogベースのプロジェクトでは、cascalog.more-tapsを使用しようとしています.cascalog.more-tapsには、ファイルシステムとの間で読み書きする機能が含まれているためです。
名前空間をロードすると、このエラー メッセージが表示されます
Clojureコアの奥深くにあることがわかったので、掘り下げる前に、誰かがこれについて何か知っているかどうか疑問に思っていました.
2 つの簡単なメモ:
cascalog.more-taps には clojure 1.3.0 または 1.4.0 が必要ですが、cascalog は clojure 1.5.1 までをサポートしています。
同じエラー メッセージが Matchure で表示されました。Matchure はかなり古く、メンテナンスされていないようです。
hadoop - JCascalog/Pail シュレッディング ステージはローカルでは機能しますが、Hadoop では機能しません
「ビッグ データ」ラムダ アーキテクチャ ブックに従って、型指定された Thift Data オブジェクトでいっぱいの着信ディレクトリを取得しました。DataPailStructure で定義された pail.meta ファイルがあります。
このデータのスナップショットを作成します。
着信ファイルとメタ データ ファイルが複製され、pail.meta ファイルにも
次に、このデータを細かく分割して、垂直方向のパーティションに分割します。この本にあるように、2 つの PailTap オブジェクトを作成します。1 つはスナップショット用、もう 1 つは SplitDataStructure 用、もう 1 つは新しいShreddedフォルダー用です。
/Shreddedフォルダーには、pail.meta ファイルがあります。structure: SplitDataPailStructure
指示に従って、JCascalog クエリを実行してレデューサーを強制します。
これで、ローカル モードでは問題なく動作します。/Shredded の下に作成された「一時的な」サブフォルダーがあり、これは予想される「1/1」構造で垂直方向に分割されます。ローカル モードでは、これは /Shredded フォルダーに移動され、問題なくマスターに統合およびマージできます。
しかし、Hadoop 内で実行すると、この時点でエラーが発生して失敗します。
言うまでもなく、Shredded Sink 構造タイプを DataPailStructure に変更すると、正常に動作しますが、すべてが Incoming フォルダーにあったため、かなり無意味な操作です。1 つのデータ型しか扱っていないので、今のところは問題ありませんが、これはすぐに変更され、そのパーティションが必要になります。
何か案は?最初はすべてのソース コードをここに投稿するつもりはありませんでしたが、何かが欠けていることはほぼ間違いありません。
hadoop - clojure: 複数のコンピューターを使用した並列処理
500 個のディレクトリと、各ディレクトリに 1000 個のファイル (それぞれ約 3 ~ 4k 行) があります。これらの各ファイルで同じclojure プログラム (作成済み)を実行したいと考えています。4 つのオクタコア サーバーがあります。これらのコア間でプロセスを分散する良い方法は何ですか? カスカログ (hadoop + clojure)?
基本的に、プログラムはファイルを読み取り、サードパーティの Java jar を使用して計算を行い、結果を DB に挿入します。
次の点に注意してください: 1. サードパーティのライブラリ/jar を使用できることが必須です 2. いかなる種類のクエリもありません