7

Excel/CSV ファイルから特定の列/行を抽出する必要がありました。誰かが、このタスクに Tika を使用することを提案してくれます。

tika を使用しているときに、POI API に出くわし、より使いやすいことがわかりました。

さらにPDFファイルを解析する必要がある場合があります。

私はこのテクノロジーを初めて使用します。2 つのテクノロジーの違いと、どちらのテクノロジーが私の要件により適しているかを知りたいです。

ありがとう、クリシュナ

4

2 に答える 2

1

Apache POI は、ほとんどの Microsoft ドキュメント用の本格的なパーサー/ライターです。新しく導入された 2007 (XSSF) 形式と Microsoft 2003 ファイル形式 (HSSF) の両方をサポートしています。Apache POI は、Microsoft ファイルを解析および生成するための 2 つのレベルの API を提供します。ファイル全体を読み取り、XML での DOM 解析に似たものをメモリに保持するビットメモリ集約型の高レベル API と、SAX/StAX 解析に似たメモリ集約型使用のための低レベル API です。

一方、Apache Tika はコンテンツ分析ツールであり、Microsoft Excel と他の多くの抽出コンポーネントのみをサポートしていると思います。新しいファイルの書き込みや Tika からのコンテンツの生成はサポートされていませんが、それは彼らのユース ケースではありません。

したがって、必要に応じて選択する必要があります。

于 2013-09-19T07:01:37.993 に答える