Tika を使用して、Web ページの表形式で数値などの情報を抽出する方法を教えてください。Tika にはこの目的のためのパーサーがありますか?
ありがとう
さて、tikaでWebページを抽出できます。この目的のために、 を使用できますapache-tika's
HTMLParser
。必要なものはすべてここで手に入ります
AutoDetectParser
which will を使用することもできますautodetect content type and extract content
。AutoDetectParser
あらゆる種類のファイル/URL を検出でき、抽出を適用します。
Tika を使用して、Web ページの表形式で数値などの情報を抽出する方法を教えてください。
--> tika による抽出内容はraw
テキストのようなものです。そのまま表形式で取得することはないと思います。