hadoop - イベントストリームをコールドストレージに保存するにはどうすればよいですか?

Question

時間ベースのリテンションを持つイベントブローカーからのイベントストリーム (代わりに「メッセージ」または単に「データ」と呼ぶこともできます) があります。イベントブローカーは、Kafka、Amazon Kinesis、またはMicrosoft Event Hubsである可能性がありますが、それが Kafka であるとしましょう。

私の目標は、このイベントストリームを受け取り、それをコールドストレージに入れることです。つまり、Hadoop/Spark を介した将来の分析のためにデータを保存します。これは、この「おしゃべりな」イベントストリームを HDFS の「分厚い」ファイルに変換したいということです。クラウド環境では、HDFS の代わりに S3 または Azure Storage を使用する可能性があります。

また、ソリューションの費用対効果が高いことも望んでいます。たとえば、ディスク容量のコストを削減するために、Avro/ORC などのシリアル化形式を使用しています。私はまた、特定のイベントがコールドストレージに保持されることを少なくとも 1 回保証するようなものです (1 回限りのボーナスポイント)。

私の主な質問は次のとおりです。

人々はこの問題をどのように解決していますか?
このシナリオを既に処理しているコンポーネントはありますか?
自分でソリューションを開発する必要がありますか?
少なくとも、推奨されるパターンはありますか?

score 1 · Accepted Answer

もう 1 つのオプションは、Kafka ソース (または Kafka チャネル) および HDFS シンクで Flume を使用することです。HDFS シンクは、特定のサイズまたは時間でロールするように構成できます。

hadoop - イベント ストリームをコールド ストレージに保存するにはどうすればよいですか?

2 に答える 2

Related

Reference

hadoop - イベントストリームをコールドストレージに保存するにはどうすればよいですか?