問題タブ [accumulo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 複雑な累積クエリ
キーまたはキーのリストが与えられた場合、accumulo 用の複雑なサーバー側フィルターを構築する方法は何ですか。
例:filter a
またはfilter b
?
例: filter a
AND filter b
OR filter c
AND filter d
?
これは可能ですか?
hadoop - Mac に Hadoop、ZooKeeper、AccumuLo をインストールする
テスト目的で、Mountain Lion を搭載した OS X にこれらのテクノロジをインストールしようとしています。セットアップは、「localhost」を使用した単一ノードのセットアップです。
私はいくつかの問題に直面しています...
1) sudo zkCli を実行 -> ls / エラーをスローする
2) bin/accumulo init を実行しようとすると、このエラーが表示されます...
クラスに問題があるようですが、何をする必要があるのか わかりません。
AccumuLo のコンパイルの概要は次のとおりです。
java - org.apache.thrift: 無効なメソッド名: 'authenticate'
このエラーが発生しているユーザー マニュアルからいくつかの基本的な Accumulo コードを実行しています。
単純なグーグル検索では、有用なものは何も提供されませんでした.
エラー
コードログ
accumulo ボックスに対して SSH セッションを実行し、sudo ./accumulo shell -u -p を実行して、シェル インスタンスに入ることができます。コードで accumulo インスタンスへの認証に同じユーザー名とパスワードを使用することはできません。ここに欠けているものはありますか?
postgresql - Postgres データベースから Hadoop シーケンス ファイルに移動するには?
Postgres データベースから Accumulo データベースにデータを取得する必要があります。これを行うためにシーケンス ファイルを使用して map/reduce ジョブを実行したいと考えていますが、開始方法がわかりません。内部の技術的な理由から、Sqoop を避ける必要があります。
これは Sqoop なしで可能でしょうか? 繰り返しますが、どこから始めればよいか本当にわかりません。すべてのレコード (数百万) を JDBC に読み込み、何らかの形でそれを HDFS シーケンス ファイルに出力する Java クラスを作成する必要がありますか?
ご意見ありがとうございます。
PS - 区切りファイルを使用することが現在の問題であることを言及しておくべきでした。一部は区切り文字を含む長い文字フィールドであるため、正しく解析されません。フィールドにはタブが含まれている場合もあります。Postgres から HDFS に直接、解析せずに移行したかったのです。
java - Java プログラムから Hadoop、Accumulo、および ZooKeeper を起動する方法は?
bash スクリプトを Java プログラムに変換しようとしています。このスクリプト内で、Hadoop、Zookeeper、および Accumulo の開始スクリプトを実行します。
これは、スクリプトで簡単に実行できます。また、プログラムが既に実行されている場合は、これらの起動スクリプトを再度呼び出すことができます。プログラムは、既に実行されていることとその pid を出力するだけです。
Javaプログラム内でこれを行う方法があるかどうかを調べようとしています。 Class.run(configs) を実行できる Hadoop/ZooKeeper/Accumulo API に隠しコマンドがあり、Hadoop/ZooKeeper/Accumulo を開始または開始しようとしますか?
私の次のステップは、おそらく jsch を使用して ssh コマンドを実行できるようにすることですが、実際には bash スクリプトを置き去りにするつもりはないようです。
編集: Java からの Hadoop サンプル jar ファイル の実行 この質問では、質問者はランタイムを使用して開始コマンドを実行しています。これは Hadoop を開始する適切な方法ですか? そこで使用するコマンドがある場合は、ネイティブの Hadoop API を使用したいと思います。
java - マップのみの mapred ジョブによってマップされている間に、オブジェクトのインスタンスを 1 つのファイルに関連付けることは可能ですか?
1 つのファイルがマップされている間に存在/動作し、次のファイルがマップされているときにリセット/再作成される HashSet を使用したいと考えています。ファイルが分割されず、マッパーによって全体として処理されるように、TextInputFormat を変更して isSplitable をオーバーライドして false を返すようにしました。このようなことは可能ですか?または、Accumulo テーブルへの書き込みを減らす別の方法はありますか?
グローバル変数が必要だとは思わないことから始めましょう。一意性を確保して、Accumulo テーブルに書き込むミューテーションを減らしたいだけです。
私のプロジェクトは、Accumulo で同じテーブルを作成しながら、線形 accumulo クライアント プログラムのシャード サンプルから Index.java ファイルの機能を mapreduce 機能を使用するものに変換することです。それはバズワードであるため、mapreduce である必要があり、本質的に、テラバイトのデータに対して線形プログラムよりも高速に実行されます。
参照用のインデックス コードは次のとおりです 。シャード/Index.java
このプログラムは、BatchWriter を使用してミューテーションを Accumulo に書き込み、ファイル単位で行います。必要以上のミューテーションを書き込まないようにし、一意性を確保するために (Accumulo は圧縮によって最終的に同じキーをマージすると思いますが)、Index.java には HashSet があり、単語が以前に実行されたかどうかを判断するために使用されます。これはすべて、理解するのが比較的簡単です。
マップのみの mapreduce ジョブへの移行はより複雑です。
これは私のマッピングの試みでした。これは、Accumulo テーブルで見た部分的な出力からはうまくいくように見えますが、線形プログラム Index.java に比べて実行速度が非常に遅くなります。
遅い問題は、ZooKeeper と Accumulo を上部に持つ Hadoop の単一ノード インスタンスであるテスト インスタンスでこれらすべてを実行しているという事実かもしれません。だとしたら、一意性の解決策を見つけるしかありません。
提供されたヘルプやアドバイスは大歓迎です。
mysql - 億単位のレコードを効果的に処理するにはどうすればよいですか
選択クエリを使用して数十億のレコードを処理しているときに、パフォーマンスの問題があります。
テーブルを細分化することでパフォーマンスを向上させるパーティションを使用しましたが、私の場合は役に立ちません。このテーブルでサンプルを選択します
ここで、content_id は parent_dept に関して一意になるため、parent_depth をパーティショニングのキーとして使用しました。すべての深さで、2577833 行を処理する必要があるため、ここではパーティショニングは役に立ちません。Web サイトからアーカイブ ストレージ エンジンを使用するアイデアを得ました。ただし、フルテーブルスキャンを使用し、選択でインデックスを使用しません。基本的に99%、このテーブルで選択クエリを使用し、このテーブルは毎日カウントを増やします.現在、バージョン5.0.1のmysqlデータベースにいます.i使用するnosqlデータベースについてのアイデアを得ましたが、mysqlで処理する方法はありますか.nosqlを提案している場合、cassandraまたはaccumuloのどちらを使用できますか?.
accumulo - Accumulo は集計をサポートしていますか?
私はアキュムロを初めて使用します。Hadoop と MapReduce を使用して、データをスキャン、挿入、更新、および削除する Java コードを記述できることを知っています。知りたいのはAccumuloで集計ができるかどうかです。
MySqlでは、、、、、、、、s、ネストされたクエリなどを使用できることを知っていますgroupby
.Accumuloでこれらの関数を直接または間接的に使用する可能性はありますか.orderby
max
min
count
sum
join
c# - Accumulo createBatchScanner の範囲が期待どおりに機能しない
バッチ スキャナーで特定の行のみをスキャンすることはできません。設定が開始キーと停止キーを同じものにすると、エントリが返されません。スキャナーを使用すると、次の例外が発生します。
「java.lang.IllegalArgumentException: 開始キーは範囲内の終了キーより小さくなければなりません (テスト: [] 0 false、テスト: [] 0 false)」...
Visual Studio 2010 で C# を作成し、プロジェクトで Thrift (ver 0.9.1.1) と Accumulo の (ver 1.5.0) proxy.thrift コードを使用しています。
これが私のコードです。すべてが「機能」しますが、エントリがありませんclient.nextK
Accumulo 1.5 のユーザー マニュアルには、このコード スニペットが示されています。これは、私が行っているのと同じです (ただし C# で): ( http://accumulo.apache.org/1.5/accumulo_user_manual.html#_basic_table )