18

要件

自然言語処理のための単語頻度アルゴリズム

Solr の使用

その質問に対する答えは素晴らしいものですが、SOLR を知るために費やしたすべての時間を NLP に活用できないかと考えていました。

私がSOLRを考えた理由は次のとおりです。

  1. たくさんのトークナイザーがあり、多くの NLP を実行します。
  2. 箱から出して使うのはかなり便利です。
  3. 落ち着いた分散型アプリなので、簡単に接続できます
  4. 私はそれでしばらく時間を費やしたので、使用すると時間を節約できます。

Solrを使用できますか?

上記の理由は良いのですが、私は SOLR THAT をよく知らないので、それが私の要件に適しているかどうかを知る必要があります。

理想的な使い方

理想的には、SOLR を構成してから、SOLR にテキストを送信し、インデックス付きのトンケン化されたコンテンツを取得できるようにしたいと考えています。

環境

私は、より大きなレコメンデーション エンジンの小さなコンポーネントに取り組んでいます。

4

4 に答える 4

14

Solrを使用して、他のツールと組み合わせることができると思います。トークン化、ストップワードの削除、ステミング、さらには同義語でさえ、Solrの箱から出てきます。固有表現抽出または基本名詞句の抽出が必要な場合は、前処理段階としてOpenNLPまたは同等のツールを使用する必要があります。検索のために、おそらく用語ベクトルが必要になります。ApacheMahoutとApacheLuceneおよびSolrの統合は、LuceneおよびSolrと機械学習(推奨を含む)エンジンとの統合について説明しているため、役立つ場合があります。それ以外の場合は、さらに具体的な質問をしてください。

于 2010-06-02T10:52:04.233 に答える
7

実際には、ドキュメントのインデックス作成時と検索時の両方で NLP アルゴリズムを使用するように Solr を構成できます。最初のフェーズ (インデックス作成時間) は、フィールド テキストを分析するための Solr UpdateRequestProcessor プラグインを使用/作成することで実行できます。一方、2 番目のフェーズは、ユーザーがヒットしたクエリを分析するカスタム QParserPlugin を作成して実装できます。私は Lucene Eurocon 2011 で、(オープン ソースの) NLP アルゴリズムを実行するために Apache UIMA を利用して、Solr に自然言語検索を実装するためのアプローチを紹介しました。講演のスライド動画をご覧いただけます。お役に立てれば。トマソ

于 2011-11-22T08:48:39.477 に答える
3

関連性の低い検索結果をフィルタリングするために解析を適用するように設計された特別なリクエスト ハンドラがあります。これは、OpenNLP によって取得された Constituency 解析ツリーの機械学習に基づいています。

ブログを ご覧ください http://search-engineering.blogspot.com

および論文 http://dx.doi.org/10.1016/j.datak.2012.07.003

この SOLR 検索リクエスト ハンドラは、OpenNLP 類似性コンポーネントの一部として利用できます。

于 2012-09-19T17:11:08.723 に答える
2

この Google コード プロジェクトでは

http://code.google.com/p/relevance-based-on-parse-trees

パッケージ opennlp.tools.similarity.apps.solr で言語ベースのリクエスト ハンドラーを使用できます public class SyntGenRequestHandler extends SearchHandler

ここで、SearchHandler によって取得された検索結果は、解析ツリーの類似性に基づいて再ランク付けされます。

于 2012-11-09T00:29:25.980 に答える