問題タブ [amazon-kinesis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-warehouse - 最後の 'n' 日/週/月/年の集計をデータ ストリームに保存する方法は?
「過去 2 週間の失敗したトランザクションの数を教えてください」、「過去 2 年間に作成されたアカウントの数を教えてください」などのクエリのリアルタイムの回答を取得できるようにデータを保存する最良の方法は何ですか? テーブル内の個々のエントリの数が膨大で、計算に数時間かかる場合があるため、毎回行数をカウントすることはオプションではありません。
ローリングウィンドウ方式でリアルタイムで集計を見つけることにのみ興味があります。また、2 年以上前のデータを保持したくないので、自動的に削除したいと考えています。
この問題を解決する標準的な方法はありますか? redshift/kinesis などのサービスは役に立ちますか?
ありがとうございます。
amazon-kinesis - Kinesis からレコードを取得するときに ShardIterator で TypeError を受け取る
Kinesis ストリームに配置したレコードを取得し、そのレコードを S3 バケットに配置するための Python の次のブロックがあります。このストリームには 1 つのシャードがあります。
データは最初にストリームから取り出されて S3 にプッシュされますが、ある時点でTypeError: expected string or buffer
、ラインで受信しますresponse = kinesis_connection.get_records(shard_iterator)
。シャードには、プルできるレコードが他にもたくさんあります。誰かが以前にこの問題に遭遇したことがありますか、または私が何を修正しようとすべきかについてアイデアを持っている人はいますか?
amazon-redshift - Amazon Kinesis を使用して、数分ごとにデータをロードするために Amazon Redshift に接続できますか?
多くのソースから、Amazon キネシスを使用してストリームをキャッチすることを計画しており、特定のレベルのデータ変換の後、いくつかのテーブル スキーマでストリームを Redshift クラスターに転送したいと考えています。これを行うのが正しい方法であるかどうかはわかりませんか?
Kineis のドキュメントから、redshift への直接接続があることがわかりました。ただし、データ ウェアハウス システムにはインデックス作成が必要なため、一括アップロードを行うと、Redshift の見栄えが良くなることもわかりました。したがって、推奨事項は、すべてのストリームを S3 に保存してから、COPY コマンドを使用して redshift に一括プッシュすることでした。誰かがもう少しビューを追加してもらえますか?
amazon-s3 - Kinesis ストリームを S3 バケット内の特定のフォルダー構造で S3 ストレージに保存する方法
Kinesis Stream によってキャプチャされたイベントがあります。すべてのイベントを S3 の特定のフォルダ構造に配置したいと考えています。6月15日のすべてのイベントがそのフォルダーに入れられ、6月16日以降は新しいフォルダーがイベントを選択するようになるように、日付スタンプ付きのフォルダーを作成したいと思います。
Kinesis を初めて使用するので、ドキュメントを参照したところ、データを出力する必要がある S3 の場所を選択するための構成で S3Emitter を使用するコネクタ フレームワークがあることがわかりました。日付ごとのフォルダーにイベントの日付をキャプチャしますか?
java - サーバーから Kinesis Stream にデータを配置する方法
私はKinesisを初めて使用します。私が見つけたドキュメントを読んで、プロデューサーからデータを取得するために Kinesis Stream を作成できます。次に、KCL を使用すると、このデータが Stream から読み取られてさらに処理されます。IRecordProcessor を実装して KCL アプリケーションを作成する方法を理解しています。
ただし、Kinesis ストリームにデータを配置する方法としての最初の段階は、まだ明確ではありません。これを実現するために実装が必要な AWS API はありますか。
シナリオ: フォルダー内のさまざまなソースから継続的にデータを取得しているサーバーがあります。各フォルダーにはテキスト ファイルが含まれており、その行には、さらに分析作業を行うために必要な属性が含まれています。これらすべてのデータを Kinesis Stream にプッシュする必要があります。
以下のようなコードが必要です クラス putData メソッドは、Kinesis ストリームで使用されます
ただし、サーバーのソースフォルダーからファイルを読み取り、次に putData を呼び出して Kinesis ストリームのレコードを取得するために使用する必要がある設計は何ですか。無限ループとすべてのファイルの読み取りが必要ですか、これを実行するか、フォールトトレランス、単一障害点すべてを考慮してこれを実行するフレームワークを実行します。どんな助けでも大歓迎です。
簡単に言うと、定期的に生成されたデータを Kinesis Stream に配置するためのより良い手法が必要です。データはサーバーに対して定期的に生成されます。ありがとう
amazon-web-services - KCL アプリケーションを Kinesis Connector に統合して S3 でデータを送信する方法
すべての Kinesis アプリケーションには、次の 3 つのコンポーネントが含まれている必要があります。
IRecordProcessor インターフェイス
IRecordProcessor インターフェイスを実装するクラスのファクトリ
アプリケーションを初期化し、ワーカーを作成するコード
ここで、レコードを Kinesis stream に追加するようにプロデューサーを設定すると理解できました。次に、KCL アプリケーションは、以下の processRecords の実装を使用して Kinesis ストリームからレコードを読み取ることができます。次に、この processRecords メソッドには、コネクタ ライブラリを使用して最終的に保存するために S3 に渡す何らかの方法が必要です。
public void processRecords(List records, IRecordProcessorCheckpointer checkpointer)
クエリ: KCL アプリケーションの processRecords からコネクタ ライブラリを呼び出して、データ レコードを S3 に保存するにはどうすればよいですか?
サンプルの Kinesis アプリケーションを示すリンクを確認しました https://github.com/aws/aws-sdk-java/blob/master/src/samples/AmazonKinesisApplication/SampleRecordProcessor.java
上記のリンクでは、以下のようにメソッド スニペットを貼り付けています。
上記のコードで、「レコードを処理するロジックがここに入る」と言ったとき。(上記のコードを参照してください) ここで私の要件は、 s3 にデータを配置することです。これを行うコネクタライブラリがあることは理解していますが、この時点でコネクタライブラリを呼び出す方法を視覚化することはできませんか?提案してください
apache-pig - 豚のスクリプトからのアマゾンのキネシス
Pig スクリプトをローカルで使用して、Kinesis ストリームからデータを取得するにはどうすればよいですか?
Amazon のドキュメントからこの例に気付きましたが、Amazon キネシス ピッグ ライブラリをインポートする方法がわからず、例が不完全なようです。クレデンシャルをどこに設定すればよいか、キネシス ライブラリの jar はどこで入手できますか...など...彼らの例は grunt-shell のものですが、自分のマシンからローカルで実行するにはどうすればよいでしょうか?
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/kinesis-pig-generate-data.html