何千もの HTML ファイルを含む入力フォルダーが hdfs にあります。
/data/htmls/1/(HTML files)
/data/htmls/2/(HTML files)
.
.
/data/htmls/n/(HTML files)
HTMLファイルを入力として受け取り、解析するJava関数があります。これらのHTMLファイルをマッパー関数で読み取り、パーサー関数への入力としてフィードしたいと考えています。入力ファイルは map 関数で 1 行ずつ処理されるため、HTML ファイルを操作する方法はありますか?