1

Tika を使用して、Web ページの表形式で数値などの情報を抽出する方法を教えてください。Tika にはこの目的のためのパーサーがありますか?

ありがとう

4

1 に答える 1

0

さて、tikaでWebページを抽出できます。この目的のために、 を使用できますapache-tika's HTMLParser。必要なものはすべてここで手に入ります

AutoDetectParserwhich will を使用することもできますautodetect content type and extract contentAutoDetectParserあらゆる種類のファイル/URL を検出でき、抽出を適用します。

Tika を使用して、Web ページの表形式で数値などの情報を抽出する方法を教えてください。

--> tika による抽出内容はrawテキストのようなものです。そのまま表形式で取得することはないと思います。

于 2012-08-16T06:21:33.010 に答える