0

ビジネスが属する支店の種類を説明する自由テキスト フィールドを持つドキュメントがあるとします。

例1:「ヘルスケアソリューションを中心としたITコンサルティング」

例 2: 「米国内のオンライン顧客向けの金融アドバイス」

私が Solr や Lucene に期待したいのは、潜在的なシノニムを考慮して、テキストで説明されているビジネス オペレーションの分類法を引き出すことです。したがって、最初の例は次のようなグラフになります。情報技術 <-[in]- コンサルティング -[on]-> ヘルスケア

例 2 は次のようになります: Finance <-[in]- Consulting

コンサルティングやアドバイスなどの操作は、文脈によっては同義語です。

4

1 に答える 1

1

シノニムの場合は、 SynonymFilterFactoryを使用するようにアナライザーをセットアップし、シノニム ファイルで次のようにします。

<filter class="solr.SynonymFilterFactory" synonyms="business-synonyms.txt" ignoreCase="true" expand="true" />

ファイルは次のようになります。

IT,information technology
advising,consulting

など。「IT」と大文字と小文字を区別しない場合、「it」という単語の通常の使用が拡張される可能性があるため、データで何が最適に機能するかを実験する必要がある場合があります。

シノニムにコンテキストが必要な場合は、さらにトリッキーになります。


次に、興味のあるものだけをインデックス化するには、KeepWordFilterFactoryを使用できます。索引付けしたいすべての単語をテキスト・ファイルにリストする必要があります。


この設定により、関心のあるすべてのキーワード (類義語を含む) のインデックスが作成されます。たとえば、「IT コンサルティング ヘルスケア」などの特定のビジネス タイプを検索すると、Solr は同義語とそのスコアリング システムを使用して一致するものを取得できます。

于 2013-10-10T15:30:48.423 に答える