私はエラスティックにまったく慣れていないので、私の知識はelasticsearchサイトからのみであり、支援する必要があります. 私の仕事は、html 形式の大きな行データをエラスティック検索にインデックス付けすることです。すでにデータをクロールしてディスクに保存しました (200,000 個の html ファイル)。私の質問は、すべての html ファイルを Elasticsearch にインデックス化する最も簡単な方法は何ですか? エラスティックにプットリクエストを行うには、ドキュメントごとに手動で行う必要がありますか? たとえば、次のようにします。
curl -XPUT 'http://localhost:9200/registers/tomas/1' -d '{
"user" : "tomasko",
"post_date" : "2009-11-15T14:12:12",
"field 1" : "field data"
"field 2" : "field 2 data"
}'
2 番目の質問は、例のコードのように HTML ドキュメントを解析して JSON フィールド 1 のデータを取得する必要があるかどうかです。
最後に、インデックスを作成した後、すべての HTML ドキュメントを削除してもよろしいですか? 全てに感謝。