lucene - SOLR と自然言語解析 - 使用できますか?

Question

要件

自然言語処理のための単語頻度アルゴリズム

Solr の使用

その質問に対する答えは素晴らしいものですが、SOLR を知るために費やしたすべての時間を NLP に活用できないかと考えていました。

私がSOLRを考えた理由は次のとおりです。

たくさんのトークナイザーがあり、多くの NLP を実行します。
箱から出して使うのはかなり便利です。
落ち着いた分散型アプリなので、簡単に接続できます
私はそれでしばらく時間を費やしたので、使用すると時間を節約できます。

Solrを使用できますか?

上記の理由は良いのですが、私は SOLR THAT をよく知らないので、それが私の要件に適しているかどうかを知る必要があります。

理想的な使い方

理想的には、SOLR を構成してから、SOLR にテキストを送信し、インデックス付きのトンケン化されたコンテンツを取得できるようにしたいと考えています。

環境

私は、より大きなレコメンデーションエンジンの小さなコンポーネントに取り組んでいます。

score 14 · Accepted Answer

Solrを使用して、他のツールと組み合わせることができると思います。トークン化、ストップワードの削除、ステミング、さらには同義語でさえ、Solrの箱から出てきます。固有表現抽出または基本名詞句の抽出が必要な場合は、前処理段階としてOpenNLPまたは同等のツールを使用する必要があります。検索のために、おそらく用語ベクトルが必要になります。ApacheMahoutとApacheLuceneおよびSolrの統合は、LuceneおよびSolrと機械学習（推奨を含む）エンジンとの統合について説明しているため、役立つ場合があります。それ以外の場合は、さらに具体的な質問をしてください。

score 7 · Accepted Answer

実際には、ドキュメントのインデックス作成時と検索時の両方で NLP アルゴリズムを使用するように Solr を構成できます。最初のフェーズ (インデックス作成時間) は、フィールドテキストを分析するための Solr UpdateRequestProcessor プラグインを使用/作成することで実行できます。一方、2 番目のフェーズは、ユーザーがヒットしたクエリを分析するカスタム QParserPlugin を作成して実装できます。私は Lucene Eurocon 2011 で、(オープンソースの) NLP アルゴリズムを実行するために Apache UIMA を利用して、Solr に自然言語検索を実装するためのアプローチを紹介しました。講演のスライドと動画をご覧いただけます。お役に立てれば。トマソ

score 3 · Accepted Answer

関連性の低い検索結果をフィルタリングするために解析を適用するように設計された特別なリクエストハンドラがあります。これは、OpenNLP によって取得された Constituency 解析ツリーの機械学習に基づいています。

ブログをご覧ください http://search-engineering.blogspot.com

および論文 http://dx.doi.org/10.1016/j.datak.2012.07.003

この SOLR 検索リクエストハンドラは、OpenNLP 類似性コンポーネントの一部として利用できます。

score 2 · Accepted Answer

この Google コードプロジェクトでは

http://code.google.com/p/relevance-based-on-parse-trees

パッケージ opennlp.tools.similarity.apps.solr で言語ベースのリクエストハンドラーを使用できます public class SyntGenRequestHandler extends SearchHandler

ここで、SearchHandler によって取得された検索結果は、解析ツリーの類似性に基づいて再ランク付けされます。

lucene - SOLR と自然言語解析 - 使用できますか?

要件

Solr の使用

Solrを使用できますか?

理想的な使い方

環境

4 に答える 4

Related

Reference