問題タブ [pycassa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
django - Django を使用して cassandra でデータ モデルを作成する
Djangoバックエンドを使用してcassandraでデータモデルを作成する方法は? twissandra を参照しましたが、データモデルの作成方法に混乱しています(リレーショナルデータベースのように)
python - ある関数を別の関数から呼び出すと、pycassaShell で予期しない NameError が発生する
私は pycassaShell で遊んでいます( CassandraとTwissandraのチュートリアルの一部として)。シェル内に 2 つの関数を追加し、一方を他方から呼び出そうとすると、名前が認識されないというエラーが表示されます。
これはおそらく非常に単純なことですが、これを行う方法が見つかりませんでした。
pycassaShell は次のようになります。
cassandra - Cassandra キーによるソート (TimeUUID)
get_range()
列ファミリーを呼び出すときにキーでソートするのに問題があります。
- キーは TimeUUID です
- キー検証クラスは org.apache.cassandra.db.marshal.TimeUUIDType です
- パーティショナーは「ByteOrderedPartitioner」です
ただし、 get_range() を呼び出すと、結果が正しい順序で返されません。ここで私が間違っているかもしれないことについて何か考えはありますか?
python - Cassandra がクラッシュします。何が問題なのかわかりません
次の例外を除いて、しばらくするとシステムがクラッシュします。
Python Pycassa 例外の読み取り:
エラー: 各サーバーへの接続が 2 回試行されましたが、いずれも成功しませんでした。最後の失敗は TTransportException: Could not connect to 10.242.253.141:9160 でした
Cassandra system.log
cassanda.yaml
それで、何がうまくいかないのですか?ガイドしてください?
python - PycassaのReferenceFieldと同等ですか?
Cassandra/Pycassaデータベースの設計に頭を悩ませようとしています。
Mongoengineでは、次のように「ReferenceField」を使用して別のクラスを参照できます。
ドキュメントからわかる限り、Pycassaに相当するものは次のようなものですが、PostクラスのauthorフィールドからUserクラスへの参照を作成する方法がわかりません。
このようなことをするための好ましい方法は何ですか?もちろん、[投稿者]フィールドにユーザーキーを入力することもできますが、Mongoengineのように、これらすべてを舞台裏で処理するより良い方法があることを望んでいます。
storage - 階層データをHDF5に保存するための理想的な方法
StackOverflowのオラクルの皆さん、こんにちは。
初めてスタックオーバーフローについて質問したので、お気軽にキャベツを投げてください。(または質問の仕方を修正してください)
私はこの問題を抱えています。私はHDF5を使用して大量のCookie情報を保存しています。
私のデータは次のように構成されています。
CookieID->イベント->Key_valueペア
cookieIDごとに複数のイベントがあります。ただし、イベントごとに1つのkey_valueペアのみ。
これをHDF5に保存する最善の方法を知りたいのですが。
現在、テーブルの名前としてcookieIDを使用して、HDF5のグループ内の個別のテーブルとして各Cookieを保存しています。残念ながら、10,000,000個のCookieがあるため、HDF5(または具体的にはPyTables)はこのタイプのストレージを承認しません。
具体的には、このエラーをスローします。
/ CookieData``が推奨される子の最大数(16384)を超えています
この情報を保存するための最良の方法をお勧めできるかどうか疑問に思います。
フラットテーブルを作成する必要がありますか?この方法を維持する必要がありますか?他にできることはありますか?
ヘルプをいただければ幸いです。読んでくれてありがとう。
arrays - 多次元配列をcassandraに格納する方法
配列のようなオブジェクトをcassandraに格納したいのですが、cqlでもすべての要素にアクセスする必要があるため、インデックスを作成する必要があります。残念ながら、配列のサイズは動的です(ただし、次元の数ではなく、事前定義されています)。次のような配列を格納するための最も適切な方法は何でしょうか。
matrix[x][y][z]
したがって、1次元(vector[n]
)配列の場合、非常に単純になります。スーパーコラムが適切だと思います
多次元配列(matrix[x][y][z]
)はもう少し複雑です。次のように格納します。
しかし、どちらの場合も、column_validation_classesを定義する方法を理解できませんでした(私はpycassaを使用しています)...
また、複合コンパレータを使用して、すべてを次のような標準の列に配置してみました。
1次元の場合:
または複数の次元:
しかし、この場合、他の情報を含む列を追加したい場合、コンパレータを適切に定義する方法がわかりません。
さらに、このためのインデックスを作成する方法と、複合コンパレータのselectステートメントを作成する方法を理解できませんでした。
私の問題に対するあらゆる種類の提案、アイデア、または解決策をありがとう;)
乾杯
database - Cassandraでの列のフィルタリング
私はカサンドラに不慣れです。
1,000,000列あるとしましょう。列名に「test」という文字列が含まれる列のみを返したいのですが。
Cassandra / Pycassaで可能ですか?
performance - Cassandra のセカンダリ インデックスがわずか 35 万行で非常に遅いのはなぜですか?
セカンダリ インデックスを持つ列ファミリーがあります。セカンダリ インデックスは基本的にバイナリ フィールドですが、文字列を使用しています。フィールドはis_exportedと呼ばれ、 'true'または'false'になります。リクエストの後、ロードされたすべての行がis_exported = 'false'で更新されます。
この列テーブルを 10 分ごとにポーリングし、新しい行が表示されるたびにエクスポートしています。
しかし、ここに問題があります。このクエリの時間は、列テーブルのデータ量に比例して大きくなり、現在、5000 行を見つけるのに 12 秒から 20 秒 (!!!)かかります。私の理解では、インデックス付きリクエストは CF の行数に依存するのではなく、1 つのインデックス値 (基数) あたりの行数に依存する必要があります。これは、次のような別の非表示の CF であるためです。
私は Pycassa を使用してデータをクエリしています。ここで使用しているコードは次のとおりです。
私は何か間違ったことをしていますが、この操作ははるかに高速に動作することを期待しています。
アイデアや提案はありますか?
いくつかの設定情報:
- カサンドラ 1.1.0
- RandomPartitioner
- 2 つのノードがあり、replication_factor = 2 (各サーバーには完全なデータ コピーがあります)
- AWS EC2、大型インスタンスを使用
- エフェメラル ドライブ上のソフトウェア raid0
前もって感謝します!
python - 複数のキーのpycassa時系列データ
すべてのユーザーからの最新のツイートや単一のユーザーからの最新のツイートではなく、選択したユーザーの最新のツイートを表示する twitter クローンのニュースフィードを作成しようとしています。
個々のキーに格納されている UUID キーがあります。
各 UUID は、別の列ファミリーのツイートに関連付けられます。
これで、すべてのユーザーまたは 1 人のユーザーのツイート時間を効率的に取得できます。しかし、user1、user2、user3 などの時間順のイベントを取得するにはどうすればよいでしょうか?
ユーザー 1 には多くの新しいツイートがある可能性がありますが、ユーザー 2 には新しいツイートがほとんどない可能性があることに注意してください。
ユーザーがフォローしているすべてのユーザーのツイートの UUID を持つ「ニュースフィード」列ファミリーを作成することを検討しましたが、この完全なレベルのデータ冗長性は...やり過ぎのようです。これはより賢明なアプローチですか?