問題タブ [cassandra]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
erlang - どちらが私のニーズに最適ですか - 私は精神的な故障を抱えています
Erlang で Reddit クローンを作成しています。いくつかの erlang Web フレームワークの使用を検討していますが、これは問題ではありません。
データベースの選択に問題があります。
使い方;
私は複数の専用 reddit を持っています。例、科学、面白い、企業、スポーツ。それらをサブredditと見なすことができます。各サブ reddit にはカテゴリがあります。
ユーザーは次の情報を投稿できます。
タイトル、カテゴリタグ、説明、カテゴリ、 将来の日付、
画像、リンクを追加します。ビデオ
Reddit と同様に、ユーザーはストーリーに投票してコメントすることができます。コメントにも投票システムがあります。
どのように問題;
どの NoSQL データベースを使用すればよいかわかりません。サイトには Mysql のスケーラビリティの問題があります (信頼できるので、SQL を提案しないでください)。それ以上ではないにしても、約 10,000 ~ 20,000 の同時接続があります。
今私が必要とするもの;
1) ユーザーがスポーツ サブレディットにアクセスします。
NFL カテゴリやサッカー ワールド カップ カテゴリなど、未来の日付を持つすべてのストーリーを見たいと思うでしょう 。
しかし、人々はがらくたを投稿する可能性があるため、将来の日付で並べ替える必要がありますが、5 票以上の投稿で結果をフィルター処理してから、最も近い今後のイベントを表示する必要があります。
したがって、週末に試合があり、次の試合が 3 週間前の場合は、最も近い試合を最初に行う必要があります。
2)上記の問題は、1つのデータベースを使用しています
1) subreddit: Sportですべての投稿を検索します。2) NFLカテゴリのすべての投稿を検索します。3)将来の日付を持つすべての投稿を検索します。これらの投稿を投票数の多い順に並べ替え、今日に最も近い日付のストーリーを表示します。
私はcouchdbが良い候補のように見えると思いますが、よくわかりません
しかし、Cassandra、Hbase、Riak、neo4j はどうですか?
私はこれを理解しようとして夢中になっています。
大量のユーザーをスケーリングして処理できるものが必要です。
cassandra - Elastic IP アドレスを使用した Amazon EC2 上の Cassandra
Elastic IP アドレスのない EC2 インスタンスで cassandra を使用できますか? その場合、インスタンスがダウンすると問題が発生すると思います。
Cassandra ノードに Elastic IP アドレスを使用する場合、内部通信 (ゴシップなど) にパブリック IP アドレスを使用するように構成する必要があります。しかし、それはネットワーク遅延を増加させます。
問題を最小限に抑えるためにノードを構成する方法を提案してください。
database - Cassandra の列ファミリーの行数
Cassandra で単一の列ファミリーの行数 (キー数) を取得する方法はありますか? get_count は、列数を取得するためにのみ使用できます。
たとえば、ユーザーを含む列ファミリーがあり、ユーザー数を取得したいとします。どうすればできますか?各ユーザーは独自の行です。
python - ビッグデータの Python での遅延実行
Python API が Cassandra のような大規模なデータストアをどのように検索するかを考えようとしています。R、Matlab、および NumPy は、「すべてが行列である」定式化を使用し、各操作を個別に実行する傾向があります。このモデルは、メモリに収まるデータに対して効果的であることが証明されています。ただし、ビッグ データに対する SAS の利点の 1 つは、行ごとに実行し、すべての行の計算を行ってから次の行に移動することです。Cassandra のようなデータストアの場合、このモデルは大きなメリットのように思えます。データを 1 回ループするだけです。
Python では、SAS のアプローチは次のようになります。
これは (あまりにも?) 明示的ですが、ループが 1 回だけであるという利点があります。小さいデータセットの場合、コンパイルされたコードを使用して関数がベクトル化されないため、NumPy に比べてパフォーマンスが非常に悪くなります。R/Numpy では、はるかに簡潔でコンパイルされたものになります。
log
とifelse
はどちらもベクトルを操作するコンパイル済み関数であるため、これは非常に高速に実行されます。ただし、欠点は、2 回ループすることです。小さなデータセットの場合、これは問題ではありませんが、Cassandra でサポートされているデータストアの場合、このアプローチがどのように機能するかわかりません。
質問: 2 番目の API (R/Numpy/Matlab など) を保持し、計算を遅らせる方法はありますか? おそらく、最後に sync(data) 関数を呼び出すことでしょうか?
別のアイデア?ユーザーは小さな操作に NumPy を使用し、それがどのように機能するかを直感的に把握できるため、NumPy 型の構文を維持するとよいでしょう。
cassandra - 単一の ColumnFamily 内での Cassandra アトミック読み取り/書き込み
Cassandra のフロント ページhttp://incubator.apache.org/cassandra/には、次のように記載されています。
Cassandra は、読み取りと書き込みが単一の ColumnFamily 内でアトミックであることを保証します。
それは正確にはどういう意味ですか?同じCF内の2つの異なる行
のbatch_insert()とbatch_mutate()がアトミックであり、行の1つでの操作が失敗すると、操作全体が失敗することを意味するようです。しかし、それは本当であるには良すぎるように聞こえます.これは正しいですか?
ruby - データベース技術の選択
オンライン プラットフォーム (API、サーバー、データ、Wahoo!) の構築に着手しています。コンテキストとして、Twitter のようなものを構築する必要があると想像してください。ただし、コメント (ツイート) はライブ イベントを中心に編成されています。ライブ イベント自体に関する情報は、可能な限り迅速かつ一貫してクライアントに配信する必要がありますが、イベントに関するコメントは、配信されるまでに多少時間がかかる可能性があります。ライブ イベントが終了した後は、読み物に夢中になります。
スケーラビリティは非常に重要です。VPS スライスのレンタルを開始し、そこから拡張したいと考えています。私はクラウドの大ファンで、できるだけ長くそこにとどまりたいと思っています。おそらくRubyを使用するでしょう。
RDBMS の代わりにドキュメント ストアを試してみたいと確信しています。スキーマレス ストレージのアイデアと、キーと値に焦点を当てることでスケーラビリティが容易になるという約束が気に入っています。
問題は、どのテクノロジーが当社のプラットフォームに最も適しているかわからないことです。私は、Couch、Mongo、Tokyo Cabinet、Cassandra、および blob されたドキュメントを持つ RDBMS を見てきました。この特定の仕事に適したツールを選ぶのに何か助けはありますか?
cassandra - Cassandra vs Riak
結果整合性のあるデータストアを探していますが、RiakまたはCassandraにあるようです。誰かがこれについての見解の経験を持っていますか?
perl - Net::Cassandra を使用して Perl の列にスーパー列を作成または関連付けるにはどうすればよいですか?
Net::Cassandraを使用して、Perl でスーパー カラムを作成またはカラムに関連付けるにはどうすればよいですか?
php - PHPを使用してcassandraの列のキーを取得するにはどうすればよいですか?
性別=男性の列のキーを取得するにはどうすればよいですか。http://wiki.apache.org/cassandra/ClientExamplesのphpライブラリを使用する
たとえば、私の鍵は
0、1、2
キー:0 {column(name:age、value:24)、column(name:sex、value:female)}
キー:1 {column(name:age、value:24)、column(name:sex、value:female)}
キー:2 {column(name:age、value:26)、column(name:sex、value:male)}
nosql - Cassandra 時系列データ
Cassandra を使用して、さまざまなソースからの情報ストリームを保存することを検討しています。
私たちが直面している問題の 1 つは、2 つの日付の間でクエリを実行する最善の方法です。
たとえば、日時 dt1 と日時 dt2 の間のオブジェクトを取得する必要があります。
現在、作成された UNIX タイムスタンプを実際のオブジェクトを指すキーと見なしてから、get_key_range を使用してクエリを取得して取得しますか?
明らかに、2 つのアイテムのタイムスタンプが同じ場合、これは機能しません。
これは一般的にnoSQLストアでdatetimeを行う最良の方法ですか?