問題タブ [data-ingestion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 100 MB を超えるファイルを HDFS にロードできない
クラスターで非常に奇妙な問題に直面しています。
100 MB (104857600 バイト) を超えるファイルを HDFS にロードしようとすると、次のエラーで失敗します。
すべてのデータノードが不良です... 中止します。
100 MB がファイルサイズのしきい値になっているため、これは非常に奇妙です。
ファイル サイズを 1 バイト (104857601 バイト) 増やして HDFS にロードしようとしても、長いスタック トレースで失敗します。主に「すべてのデータノードが悪い...中止しています」と言っています
誰かが以前に同様の状況に直面したことがありますか?
この動作の原因となった誤った構成変更がある可能性はありますか? はいの場合、変更できる取り込み可能なデータのサイズを制限する構成はありますか?
ありがとう
indexing - Druid / Tranquility (server) / Ingestion / Indexing が完了していない
私は Druid 0.9.1.1 と Tranquility 0.8.0 を使用しており、こちらのクイックスタート手順に従いました: http://druid.io/docs/0.9.1.1/tutorials/quickstart.html
次のコマンドは成功します。
次の応答が返されます。
...そして、Druid コンソールから、インデックス作成タスクが作成されたことを確認できました。
問題は、データソース (名前付きメトリック、スキーマにある仕様による) が表示されず、20 分経過したことです。インデックス作成はまだ RUNNING 状態です。
なぜそんなに時間がかかるのですか?だから私はこれをチェックしました: http://druid.io/docs/latest/ingestion/stream-push.html。「タスクの作成」セクションに早送りすると、次のように表示されます。
segmentGranularity は、各タスクによって生成されるセグメントがカバーする期間です。たとえば、「hour」の segmentGranularity は、それぞれ 1 時間をカバーするセグメントを作成するタスクを生成します。
データソースが表示されないのは、これが原因でしょうか (私のスキーマ仕様の segmentGranularity の値は 1 HOUR です)。
私が間違っている場合は、私を修正してください。
java - ゴブリン - Facebook から投稿を取得する方法
私はしばらく Gobblin を調査してきましたが、現在、Gobblin を使用して Facebook から投稿を取得する際に問題が発生しています。インターネットで接続例が見つからなかったか、検索が間違っていた可能性があります。
私は restfb を Gobblin に統合することを検討していますが、Gobblin にはコネクタ、ソース、エクストラクタを持つ RestAPI クラスがあり、これらを組み合わせる方法を見つけるのに苦労しています。これを実装する方法についての簡単なガイドを教えてください。または正しい指示を教えてください。事前にどうもありがとうございました。
database - CrateDB からの挿入ベンチマークはどのように評価すればよいですか?
CrateDB から提供されるベンチマークを理解し、解釈しようとしています。( https://staging.crate.io/benchmark/ )
1 秒間にいくつの要素を挿入できるかに興味があります。これはタプルのサイズによって異なる場合があることを知っています。そして、CrateDB が exmpale で使用するのと同じ ements-sizes を持っていると定義します。
それらは一括挿入の例を提供し、10.000 (整数/文字列のペア) の一括挿入に平均 50 ミリ秒かかります。
さて、1 秒 (1000 ミリ秒) の間に 10.000 ペアの 20 個のバルクを挿入できると計算できますか?
1000ms/50ms = 20 -> 20*10000 = 200000 -> 1 秒あたり 200000 の整数/文字列のペア
7 つの整数と 2 つの小数 (7,4) がある場合、結果がどのように異なるかを言えますか?