問題タブ [infobright]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - InfoBright(MySQL)エラー5(HY000):std :: exception
InfoBrightに一括アップロードしています。
サーバー1から出力ファイルにデータを取り込み、サーバー2に一括アップロードしようとしました。MySQLによって生成されたデータファイルOUTFILE
をサーバー1からサーバー2にコピーしました。サーバー2のこれらのデータファイルの所有権をmysql:mysqlに変更しました。ファイルのサイズは493MBです。
しかし、次のコマンドを実行しようとすると、次のようになります。
次のエラーが発生します:
エラー5は、mysqlがメモリを使い果たしたことを示しています。
したがって、検証として、のテーブルの1つにあるサーバー2に存在する同様のデータを取得しましたOUTFILE
。このファイルのサイズは503MBです。
次に、次のコマンドを使用しました。
これは機能します。では、なぜサーバー1からのダンプで機能しないのでしょうか。何が問題になる可能性がありますか?
hadoop - Vertica/InfoBright/GreenPlum などの列指向データベースが Hadoop で大騒ぎするのはなぜですか?
Hadoop クラスターにフィードし、そのクラスターを使用してデータを Vertica/InfoBright データ ウェアハウスにフィードするポイントは何ですか?
これらのベンダーはすべて「Hadoop と接続できる」と言い続けていますが、私にはその意味がわかりません。Hadoop に保存して InfoBright に転送するメリットは何ですか? アプリケーションを Infobright/Vertica DW に直接保存しないのはなぜですか?
ありがとうございました !
java - 複数の接続を使用した単一のトランザクション。(MYSQL/JDBC)
私が取り組んでいるアプリケーションは、データを複数のテーブルにロードする Java ベースの ETL プロセスです。DBMS は Infobright (データ ウェアハウス向けの MYSQL ベースの DBMS) です。
データのロードはアトミックに行う必要があります。LOAD DATA INFILE
ただし、パフォーマンス上の理由から、(コマンドを使用して) 同時に複数のテーブルにデータをロードしたいと考えています。これは、複数の接続を開く必要があることを意味します。
ロードをアトミックかつ並列に実行できるソリューションはありますか? (答えは、ロードするテーブルのエンジンに依存する可能性があると思います。それらのほとんどは、トランザクションを許可する Brighthouse ですが、XA とセーブポイントは許可しません)。
さらに明確にするために、次のような状況は避けたいと思います。
- 5 つのテーブルにデータをロードします
- 最初の 4 つのテーブルのロードをコミットします
- 5 番目のテーブルのコミットが失敗する
この状況では、最初の 4 つのロードは既にコミットされているため、ロールバックできません。
database - 財務分析のためのデータストレージ
証券取引価格に関する大量の財務データを分析するシステムを構築しています。これにおける大きな課題は、データが数十テラバイトになることを前提として、データに使用するストレージ方法を決定することです。平均の取得、標準偏差の計算、価格、時間、ボリュームなどの複数の列でフィルタリングされた合計など、データに関する多くのクエリがあります。結合ステートメントは必須ではありませんが、持っていると便利です。
現在、評価のためにinfobrightコミュニティエディション、monetdb、greenplumコミュニティエディションを見ています。これまでのところすばらしいように見えますが、より高度な機能の場合、これらのエディションの一部では、それぞれの一部が必要です(複数のサーバー、挿入/更新ステートメントなどを使用)。
この状況でどのようなソリューションを使用しますか。また、他のソリューションよりもメリットがありますか。費用対効果が高いことは大きなプラスです。データウェアハウスソリューションにお金を払わなければならない場合はそうしますが、それを避け、可能であればオープンソース/コミュニティエディションのルートを採用したいと思います。
java - Infobright/MySQLロードデータのファイル内デッドロック
複数のLOADDATAINFILEコマンドを同時に使用すると、デッドロックが発生します。背景は次のとおりです。
フラットファイルをInfobrightデータベースにロードするJavaベースのETLツールを開発しました(InfobrightはMySQLに基づく列型データベースです)。処理の最後に、LOADDATAINFILEコマンドを使用してロードが実行されます。このプロセスは複数のテーブルへのロードを処理でき、各ロードは個別の接続を使用して並行して実行されます(パフォーマンス上の理由から)。
また、このツールを複数のファイルに対して並行して実行するbashスクリプトを作成しました(LOADコマンドはDBサーバーによってシリアル化されるため、処理部分の時間を節約するため)。これは、(異なるプロセスからの)同じターゲットテーブルに対して複数のLOADDATAコマンドを使用できることを意味します。
私が期待していたのは、LOAD DATAコマンドがシリアル方式で実行されるが、最終的には終了するということでした。しかし、私はデッドロックを経験しています。「showprocesslist」を実行すると、すべてのLOADDATAコマンドが「システムロック」状態になっていることがわかります。
誰かが以前にそのような問題を経験し、解決策を見つけたことがありますか?
詳細:Infobright EnterpriseEditionv3.5.2を使用しています。
これはMySQL5.1.40に基づいています。私のETLアプリケーションはjava1.5.0_08と
MysqlConnectorJavav5.1.12を使用しています。OS:Centos 5.6 64ビット(Linux 2.6.18-238.12.1.el5)
ice - バージョン 4.0.6 GA の infobright で Reject ファイルを使用する方法
バージョン 4.0.6 GAのリリース ノートでは、最初の新機能は「Infobright Loader が Reject ファイルをサポートするようになりました」であることがわかります。
しかし、それを使用する方法と同様に、これについてこれ以上何も見つけることができず、その場合に必要になる可能性があります.
助けてください
sql - MicrostrategySQLジェネレーターの変更
Microstrategyを使用しており、FreeformSQLReportの機能を認識しています。ただし、MicrostrategyがSQLを生成する方法を変更したいと思います。
Infobrightを使用しているので、完全結合などの代わりに副選択を使用したいと思います。例:
Microstrategyによって生成されたクエリ:tableaからb.colb、min(b.cold)、sum(a.colb)を選択し、a.id = b.id groupbyb.colbでtablebbを結合します。
次の方法で生成したいと思います:select b.colb、min(b.cold)、sum(a.colb)from(select id、sum(cold)from tablea a group by colb)join tableb b on a .id=b.colbによるb.idグループ
現在のアプローチとは対照的に、このタイプのアプローチを取るようにジェネレーターを変更することは可能ですか?または、フリーフォームジェネレーターを使用する必要がありますか?
database - ビッグデータデータマート/ファクトテーブルに取り組む方法は?(2億4000万行)
BIの顧客がいて、販売トランザクションから生成された販売データベーステーブルに毎月約4,000万行を生成しています。彼らは、5年間の履歴データを使用して販売データマートを構築したいと考えています。つまり、このファクトテーブルには約2億4000万行が含まれる可能性があります。(40 x12か月x5年)
これはよく構造化されたデータです。
Imがこの量のデータに直面したのはこれが初めてであり、Inforbrightやその他のツールのような垂直データベースツールを分析するために私を連れて行きました。しかし、それでもこの種のソフトウェアでは、単純なクエリの実行に非常に長い時間がかかります。
これでHadoopを確認しましたが、いくつかの記事を読んだ後、Hadoopはファクトテーブルを作成するための最良のオプションではないと結論付けました。私の理解では、非構造化データを処理することを目的としているためです。
だから、私の質問は:この課題を構築するための最良の方法は何でしょうか?、私は適切なテクノロジーを探していませんか?このような大きなファクトテーブルで取得できる最高のクエリ応答時間はどれくらいですか?..または私はここで実際の壁に直面していますか?唯一のオプションは集約されたテーブルを構築することですか?
mysql - 引用符なしのMySQL Select In Outfile
それは可能ですか、もしそうならどのように私SELECT ... INTO OUTFILE
はそれをどんな文字でも囲わないことができますか.
これまでのところ、これは機能しません:
この場合、エンジンが重要かどうかはわかりませんが、Linux マシンで InfoBright を使用していることに注意することは重要かもしれません。
出力は次のとおりです。
infobright - ブライトハウスのメモリ不足エラー
Infobright Community Editionを1年以上簡単に使用しており、まったく問題はありません。サーバーをはるかに大きなフットプリントのデータベース(postgreSQLデータベース)と共有することさえあります。
突然、それは私たちにエラーを与え始めました。「Brighthouseoutofmemory」。ServerMainHeapSizeパラメーターをデフォルトの600から4000に増やし、対応するメモリパラメーターを中間レベルのサイズに増やしてみました(Infobrightを調整しようとしたのはこれが初めてです。これは、常に完璧に実行されているためです。以下)。
誰かがこれについて何か推測がありますか?ログファイルは単にエラーを報告するだけで、助けにはなりません。
関連する可能性のあるメモとして、数か月前に、データベースでテーブルの1つが破損しました。そのためのエラーメッセージは「属性ファイルのエラー:不正な形式」です。このエラーは、テーブルを削除しようとしても(つまり、削除できないように)、さらに言えば、データベースを削除しようとしても発生します。このテーブルを削除するにはどうすればよいですか?(これらのテーブルのデータは定期的に再ロードされるため、Infobrightデータベース自体の正式なバックアップはありません)。
--sw