2

テキストファイルにインデックスを付けたいと思いました。たくさん検索した後、Apachetikaについて知りました。今、私がApache tikaを研究したいくつかのサイトで、Apache tikaがテキストをXML形式に変換し、それをsolrに送信することを知りました。しかし、変換すると、タグの例が1つだけ作成されます.......インデックスを作成したいテキストファイルは、Tomcatローカルホストアクセスファイルです。このファイルはGB単位です。それと単一のインデックスを保存できません。各行にline-id.......を付けて、一致する行を簡単に取得できるようにします。

これはApacheTikaで実行できますか?

4

2 に答える 2

3

Solr with Tikaは、複数のファイル形式からのデータの抽出をサポートしています。
サポートされているファイル形式の完全なリストは、@ linkにあります。

上記のファイル形式のいずれかを入力として提供できます。Tikaはファイル形式を自動検出し、ファイルからテキストを抽出して、インデックス作成のためにSolrに提供できます。

編集:
-Tikaは、Solrにスネディングする前にテキストファイルをXMLに変換しません。Tikaは、定義されたマッピングに従って、ファイルのメタデータとコンテンツを抽出し、Solrのフィールドにデータを入力するだけです。

ファイル全体をsolrへの入力としてフィードする必要があります。これにより、単一のドキュメントとしてインデックスが作成されます。または、ファイルを1行ずつ読み取り、別のドキュメントとしてSolrに提供する必要があります。
SolrとTikaはこれを処理しません。

于 2013-03-19T11:05:16.410 に答える
1

ファイルを行またはエントリに解析するには、 DataImportHandlerを参照してください。すでに内部構造を持っているものに Tika を実行するよりも適しています。

于 2013-03-19T16:59:42.017 に答える