私が行ったことは、ドキュメントに対して実行する必要のある数千の検索用語のリストを含むXMLファイルを作成することです。次に、テストとして、検索用語のサンプルセットからこのクエリを作成し、実際のドキュメントのサンプルを使用して、テストドキュメントに対して実行しました。
let $keywords := ("best clients", "Very", "20")
for $keyword in $keywords
let $matches := doc('test')/set/entry[matches(comment, $keyword, 'i')]
return (<re>
{subsequence($matches/comment, 1, 1),
subsequence($matches/buyer, 1, 1)}</re>,
<re>
{subsequence($matches/comment, 2, 1),
subsequence($matches/buyer, 2, 1)}
</re>
)
取り戻そうとして<re><comment /><buyer /></re><re><comment /><buyer /></re>... continuous
いますが、大まかな順序で取り戻しています。
これは、解析されているドキュメントのチャンクです(読みやすくするために、購入者の名前といくつかのネストを削除しました)。
<set>
<entry>
<comment>The client is only 20 years old. Do not be surprised by his youth.</comment>
<buyer></buyer>
<id>1282</id>
<industry>International Trade; Fish and Game</industry>
</entry>
<entry>
<comment>!On leave in October.</comment>
<buyer></buyer>
<id>709</id>
<industry>Real Estate</industry>
</entry>
<entry>
<comment>Is often !out between 1 and 3 p.m.</comment>
<buyer></buyer>
<id>127</id>
<industry>Virus Software Marketting</industry>
</entry>
<entry>
<comment>Very personable. One of our best clients.</comment>
<buyer></buyer>
<id>14851</id>
<industry>Administrative support.</industry>
</entry>
<entry>
<comment>!Very difficult to reach, but one of our top buyers.</comment>
<buyer></buyer>
<id>1458</id>
<industry>Construction</industry>
</entry>
<entry>
<comment></comment>
<buyer></buyer>
<id>276470</id>
<industry>Bulk Furniture Sales</industry>
</entry>
<entry>
<comment>A bit of an eccentric. One of our best clients.</comment>
<buyer></buyer>
<id>1506</id>
<industry>Sports Analysis</industry>
</entry>
<entry>
<comment>Very gullible, so please !be sure she needs what you sell her. She's one of our best clients.</comment>
<buyer></buyer>
<id>1523</id>
<industry>International Trade</industry>
</entry>
<entry>
<comment>He wants to buy everything, but !he has a tight budget.</comment>
<buyer></buyer>
<id>1524</id>
<industry>Public Relations</industry>
</entry>
</set>
私が使用しているキーワードのいくつか:「ベストクライアント*」、「トレード」、「20」、...。
私は行ってきました
出力は、エントリ要素の下の兄弟としてコメントとバイヤーの子を持つエントリの長いリストです。に返されるエントリの数を制限したいのですが2 per keyword
。また、感嘆符(!)で始まるコメントを優先するようにしています。
現在の出力(近づいています):
<re><comment>Very personable. One of our best clients.</comment>
<buyer/>
</re><re><comment>A bit of an eccentric. One of our best clients.</comment>
<buyer/>
</re><re><comment>Very personable. One of our best clients.</comment>
<buyer/>
</re><re><comment>!Very difficult to reach, but one of our top buyers.</comment>
<buyer/>
</re><re><comment>The client is only 20 years old. Do not be surprised by his youth.</comment>
<buyer/>
</re><re/>
現在の出力形式:
<entry>
<comment>keyworda</comment>
<buyer></buyer>
</entry>
<entry>
<comment>keyworda</comment>
<buyer></buyer>
</entry>
<entry>
<comment>keywordb</comment>
<buyer></buyer>
</entry>
<entry>
<comment>!keywordb</comment> //Not prioritized.
<buyer></buyer>
</entry>
<entry>
<comment>keywordc</comment>
<buyer></buyer>
</entry>
必要な出力:
<entry>
<comment>!keyworda</comment>
<buyer></buyer>
</entry>
<entry>
<comment>keyworda</comment>
<buyer></buyer>
</entry>
<entry>
<comment>!keywordb</comment>
<buyer></buyer>
</entry>
<entry>
<comment>!keywordb</comment>
<buyer></buyer>
</entry>
(基本的に、感嘆符を含むエントリを優先し、結果をキーワードごとに2つに制限します。)