“cassandra”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1484 参照

erlang - どちらが私のニーズに最適ですか - 私は精神的な故障を抱えています

Erlang で Reddit クローンを作成しています。いくつかの erlang Web フレームワークの使用を検討していますが、これは問題ではありません。

データベースの選択に問題があります。

使い方;

私は複数の専用 reddit を持っています。例、科学、面白い、企業、スポーツ。それらをサブredditと見なすことができます。各サブ reddit にはカテゴリがあります。

ユーザーは次の情報を投稿できます。

タイトル、カテゴリタグ、説明、カテゴリ、 将来の日付、

画像、リンクを追加します。ビデオ

Reddit と同様に、ユーザーはストーリーに投票してコメントすることができます。コメントにも投票システムがあります。

どのように問題;

どの NoSQL データベースを使用すればよいかわかりません。サイトには Mysql のスケーラビリティの問題があります (信頼できるので、SQL を提案しないでください)。それ以上ではないにしても、約 10,000 ～ 20,000 の同時接続があります。

今私が必要とするもの;

1) ユーザーがスポーツサブレディットにアクセスします。

NFL カテゴリやサッカーワールドカップカテゴリなど、未来の日付を持つすべてのストーリーを見たいと思うでしょう。

しかし、人々はがらくたを投稿する可能性があるため、将来の日付で並べ替える必要がありますが、5 票以上の投稿で結果をフィルター処理してから、最も近い今後のイベントを表示する必要があります。

したがって、週末に試合があり、次の試合が 3 週間前の場合は、最も近い試合を最初に行う必要があります。

2）上記の問題は、1つのデータベースを使用しています

1) subreddit: Sportですべての投稿を検索します。2) NFLカテゴリのすべての投稿を検索します。3)将来の日付を持つすべての投稿を検索します。これらの投稿を投票数の多い順に並べ替え、今日に最も近い日付のストーリーを表示します。

私はcouchdbが良い候補のように見えると思いますが、よくわかりません

しかし、Cassandra、Hbase、Riak、neo4j はどうですか?

私はこれを理解しようとして夢中になっています。

大量のユーザーをスケーリングして処理できるものが必要です。

2009-12-07T02:05:42.847

0 投票する

3 に答える

2390 参照

cassandra - Elastic IP アドレスを使用した Amazon EC2 上の Cassandra

Elastic IP アドレスのない EC2 インスタンスで cassandra を使用できますか? その場合、インスタンスがダウンすると問題が発生すると思います。

Cassandra ノードに Elastic IP アドレスを使用する場合、内部通信 (ゴシップなど) にパブリック IP アドレスを使用するように構成する必要があります。しかし、それはネットワーク遅延を増加させます。

問題を最小限に抑えるためにノードを構成する方法を提案してください。

cassandra

2009-12-07T07:10:05.163

0 投票する

6 に答える

42679 参照

database - Cassandra の列ファミリーの行数

Cassandra で単一の列ファミリーの行数 (キー数) を取得する方法はありますか? get_count は、列数を取得するためにのみ使用できます。

たとえば、ユーザーを含む列ファミリーがあり、ユーザー数を取得したいとします。どうすればできますか？各ユーザーは独自の行です。

database count cassandra rowcount

2009-12-23T10:06:09.180

0 投票する

2 に答える

471 参照

python - ビッグデータの Python での遅延実行

Python API が Cassandra のような大規模なデータストアをどのように検索するかを考えようとしています。R、Matlab、および NumPy は、「すべてが行列である」定式化を使用し、各操作を個別に実行する傾向があります。このモデルは、メモリに収まるデータに対して効果的であることが証明されています。ただし、ビッグデータに対する SAS の利点の 1 つは、行ごとに実行し、すべての行の計算を行ってから次の行に移動することです。Cassandra のようなデータストアの場合、このモデルは大きなメリットのように思えます。データを 1 回ループするだけです。

Python では、SAS のアプローチは次のようになります。

これは (あまりにも?) 明示的ですが、ループが 1 回だけであるという利点があります。小さいデータセットの場合、コンパイルされたコードを使用して関数がベクトル化されないため、NumPy に比べてパフォーマンスが非常に悪くなります。R/Numpy では、はるかに簡潔でコンパイルされたものになります。

logとifelseはどちらもベクトルを操作するコンパイル済み関数であるため、これは非常に高速に実行されます。ただし、欠点は、2 回ループすることです。小さなデータセットの場合、これは問題ではありませんが、Cassandra でサポートされているデータストアの場合、このアプローチがどのように機能するかわかりません。

質問: 2 番目の API (R/Numpy/Matlab など) を保持し、計算を遅らせる方法はありますか? おそらく、最後に sync(data) 関数を呼び出すことでしょうか?

別のアイデア？ユーザーは小さな操作に NumPy を使用し、それがどのように機能するかを直感的に把握できるため、NumPy 型の構文を維持するとよいでしょう。

python cassandra

2010-01-05T22:43:51.257

0 投票する

2 に答える

2136 参照

cassandra - 単一の ColumnFamily 内での Cassandra アトミック読み取り/書き込み

Cassandra のフロントページhttp://incubator.apache.org/cassandra/には、次のように記載されています。

Cassandra は、読み取りと書き込みが単一の ColumnFamily 内でアトミックであることを保証します。

それは正確にはどういう意味ですか？同じCF内の2つの異なる行
のbatch_insert()とbatch_mutate()がアトミックであり、行の1つでの操作が失敗すると、操作全体が失敗することを意味するようです。しかし、それは本当であるには良すぎるように聞こえます.これは正しいですか？

cassandra

2010-01-13T07:14:21.063

0 投票する

3 に答える

881 参照

ruby - データベース技術の選択

オンラインプラットフォーム (API、サーバー、データ、Wahoo!) の構築に着手しています。コンテキストとして、Twitter のようなものを構築する必要があると想像してください。ただし、コメント (ツイート) はライブイベントを中心に編成されています。ライブイベント自体に関する情報は、可能な限り迅速かつ一貫してクライアントに配信する必要がありますが、イベントに関するコメントは、配信されるまでに多少時間がかかる可能性があります。ライブイベントが終了した後は、読み物に夢中になります。

スケーラビリティは非常に重要です。VPS スライスのレンタルを開始し、そこから拡張したいと考えています。私はクラウドの大ファンで、できるだけ長くそこにとどまりたいと思っています。おそらくRubyを使用するでしょう。

RDBMS の代わりにドキュメントストアを試してみたいと確信しています。スキーマレスストレージのアイデアと、キーと値に焦点を当てることでスケーラビリティが容易になるという約束が気に入っています。

問題は、どのテクノロジーが当社のプラットフォームに最も適しているかわからないことです。私は、Couch、Mongo、Tokyo Cabinet、Cassandra、および blob されたドキュメントを持つ RDBMS を見てきました。この特定の仕事に適したツールを選ぶのに何か助けはありますか?

ruby mongodb couchdb cassandra tokyo-cabinet

2010-01-22T05:47:24.427

0 投票する

5 に答える

12969 参照

cassandra - Cassandra vs Riak

結果整合性のあるデータストアを探していますが、RiakまたはCassandraにあるようです。誰かがこれについての見解の経験を持っていますか？

cassandra riak

2010-01-23T14:44:48.910

0 投票する

3 に答える

524 参照

perl - Net::Cassandra を使用して Perl の列にスーパー列を作成または関連付けるにはどうすればよいですか?

Net::Cassandraを使用して、Perl でスーパーカラムを作成またはカラムに関連付けるにはどうすればよいですか?

perl cassandra thrift

2010-01-26T07:31:21.197

0 投票する

1 に答える

394 参照

php - PHPを使用してcassandraの列のキーを取得するにはどうすればよいですか？

性別=男性の列のキーを取得するにはどうすればよいですか。http://wiki.apache.org/cassandra/ClientExamplesのphpライブラリを使用する

たとえば、私の鍵は

0、1、2

キー：0 {column（name：age、value：24）、column（name：sex、value：female）}

キー：1 {column（name：age、value：24）、column（name：sex、value：female）}

キー：2 {column（name：age、value：26）、column（name：sex、value：male）}

php cassandra thrift

2010-01-27T07:11:12.760

0 投票する

1 に答える

4255 参照

nosql - Cassandra 時系列データ

Cassandra を使用して、さまざまなソースからの情報ストリームを保存することを検討しています。

私たちが直面している問題の 1 つは、2 つの日付の間でクエリを実行する最善の方法です。

たとえば、日時 dt1 と日時 dt2 の間のオブジェクトを取得する必要があります。

現在、作成された UNIX タイムスタンプを実際のオブジェクトを指すキーと見なしてから、get_key_range を使用してクエリを取得して取得しますか?

明らかに、2 つのアイテムのタイムスタンプが同じ場合、これは機能しません。

これは一般的にnoSQLストアでdatetimeを行う最良の方法ですか?

nosql cassandra key-value

2010-02-06T06:26:13.010

問題タブ [cassandra]

Reference