1

何千もの HTML ファイルを含む入力フォルダーが hdfs にあります。

/data/htmls/1/(HTML files)
/data/htmls/2/(HTML files)
.
.
/data/htmls/n/(HTML files)

HTMLファイルを入力として受け取り、解析するJava関数があります。これらのHTMLファイルをマッパー関数で読み取り、パーサー関数への入力としてフィードしたいと考えています。入力ファイルは map 関数で 1 行ずつ処理されるため、HTML ファイルを操作する方法はありますか?

4

1 に答える 1