最初に、Druid は時系列データを取り込むため、データの各行にタイムスタンプが必要になることに注意してください。それが可能な場合は、読み進めてください。
データを CSV または TSV に出力します。これらは、バッチ インジェストでサポートされている 2 つの形式です。したがって、データは次のようになります。
2013-08-31T01:02:33Z,"someData","true","true","false","false",57,200,-143
2013-08-31T03:32:45Z,"moreData","false","true","true","false",459,129,330
...
次に、ファイル、形式、および列の場所を指定する firehose セクションを持つインデックス タスクを作成できます。
"firehose" : {
"type" : "local",
"baseDir" : "my/directory/",
"filter" : "my.csv",
"parser" : {
"timestampSpec" : {
"column" : "timestamp"
},
"data" : {
"type" : "csv",
"columns" : ["timestamp","data1","data2","data3",...,"datan"],
"dimensions" : ["data1","data2","data3",...,"datan"]
}
}
}
タイムスタンプ列に与えられた特別な処理に注意してください。
ここでインデックス サービスを実行し ( Druid のドキュメントには、必要なクラスターを開始する方法に関する情報が含まれています)、「インデックス サービスを使用したバッチ インジェスト」のセクションで説明されているように、それにタスクをフィードします。データは取り込まれ、クエリ可能な Druid セグメントに処理されます。