0

Apache Lucene と Commons Digester を使用して XML ベースのクエリを作成する必要があります。

私のドキュメントの形式は次のとおりです。

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

そして、クエリは実際には、コレクション全体と比較する必要があるドキュメントでもあります。各属性には、異なる類似度メトリックがあります。たとえば、「説明」には tf-idf コサイン類似度があります。「時間」は単なる差であり、「緯度」+「経度」は半弦距離を使用して比較されます。

今のところ、「word1 word2」などの単純なテキスト クエリでのみ検索を実行しました。代わりに、より複雑なクエリを作成するにはどうすればよいですか?

ありがとう

4

2 に答える 2

0

SOLRを見たことがありますか?SOLRは、基本的にLucene+XMLベースのクエリおよびインデックス作成サーバー全体です。

于 2011-02-26T08:04:21.160 に答える
0

Apache Lucene と Commons Digester を使用して XML ベースのクエリを作成する必要があります。

この記事は、開始するのに役立つはずです

xml からコンテンツを分析するには、TIKAをご覧ください。

Apache Tika - コンテンツ分析ツールキット

Apache Tika™ は、既存のパーサー ライブラリを使用して、さまざまなドキュメントからメタデータと構造化テキスト コンテンツを検出して抽出するためのツールキットです。

于 2011-02-26T17:51:28.323 に答える