java - Commons Digester: Apache Lucene を使用して複雑な XML ベースのクエリを作成する方法は?

Question

Apache Lucene と Commons Digester を使用して XML ベースのクエリを作成する必要があります。

私のドキュメントの形式は次のとおりです。

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

そして、クエリは実際には、コレクション全体と比較する必要があるドキュメントでもあります。各属性には、異なる類似度メトリックがあります。たとえば、「説明」には tf-idf コサイン類似度があります。「時間」は単なる差であり、「緯度」+「経度」は半弦距離を使用して比較されます。

今のところ、「word1 word2」などの単純なテキストクエリでのみ検索を実行しました。代わりに、より複雑なクエリを作成するにはどうすればよいですか?

ありがとう

score 0 · Accepted Answer

SOLRを見たことがありますか？SOLRは、基本的にLucene+XMLベースのクエリおよびインデックス作成サーバー全体です。

score 0 · Accepted Answer

Apache Lucene と Commons Digester を使用して XML ベースのクエリを作成する必要があります。

この記事は、開始するのに役立つはずです

xml からコンテンツを分析するには、TIKAをご覧ください。

Apache Tika - コンテンツ分析ツールキット

Apache Tika™ は、既存のパーサーライブラリを使用して、さまざまなドキュメントからメタデータと構造化テキストコンテンツを検出して抽出するためのツールキットです。

java - Commons Digester: Apache Lucene を使用して複雑な XML ベースのクエリを作成する方法は?

2 に答える 2

Related

Reference