0

Hadoop 2.7.5 および Hbase 0.98 で apache Nutch 2.3.1 を構成しました。いくつかのウルドゥー語の Web サイトをクロールする必要があります。デフォルトのパーサー、html、tika を使用しています。一部の文書にはウルドゥー語のタイトルが付いていても問題ありませんが、一部の文書にはウルドゥー語のタイトルと見出し 1 があります。つまり、h1 にはbbc-pageなどの元のタイトルがあります。同様に、メタタグにもタイトルが付けられている場合があります。このオプションを処理できる組み込みオプション (パーサー) はありますか?利用可能な場合、タイトルに h1 を選択する必要があります。

または、私がそれをしなければならない場合、この目的のために可能な方法は何ですか.

4

1 に答える 1