0

pdf、ms word ファイル、ppt、csvなどのさまざまなドキュメントを格納する HDFS アーカイブがあります。elasticsearch を使用してファイルまたはテキストの内容を検索するプラットフォームを構築したいと考えています。es-hadoopプラグインを使用して、HDFS から ES へのデータのインデックスを作成できることを知っています。HDFS に保存されているドキュメントからテキスト データを抽出し、同じインデックスを作成する最良の方法を知りたいです。

どんな助けでも大歓迎です。

4

2 に答える 2

2

Elasticsearch マッパー アタッチメント プラグインを使用できます。このプラグインは、Apache Tikaを使用して、よく知られているほぼすべてのタイプのドキュメントを取り込み、Elasticsearch で検索できるようにします。それが役立つことを願っています。

于 2016-04-05T20:36:10.750 に答える