pdf、ms word ファイル、ppt、csvなどのさまざまなドキュメントを格納する HDFS アーカイブがあります。elasticsearch を使用してファイルまたはテキストの内容を検索するプラットフォームを構築したいと考えています。es-hadoopプラグインを使用して、HDFS から ES へのデータのインデックスを作成できることを知っています。HDFS に保存されているドキュメントからテキスト データを抽出し、同じインデックスを作成する最良の方法を知りたいです。
どんな助けでも大歓迎です。