solr - SOLR: 生のテキストから用語ベクトル (TermVectorComponent から返されるデータなど) を作成する

Question

http://wiki.apache.org/solr/TermVectorComponentを使用すると、インデックスに保存されているドキュメントのインデックス付き用語とその頻度を取得できます。テキストをインデックスに保存せずに、テキストについて同じ情報を取得するにはどうすればよいですか? SOLR でテキストを処理して情報を返したいだけですが、ドキュメントをインデックスに保存する必要はありません。

score 1 · Accepted Answer

私の知る限り、これはSOLRにデータを保存しないと不可能です。

テキスト分析を検討している場合 (これはあなたが求めているものよりも広い範囲であることは理解しています)、以下の代替手段をお勧めします。

MAUI - キーフレーズと用語の抽出を行います。
Gensim - トピックモデリングを行います
Kea - キーワード抽出

また、用語の頻度分析を行う python スクリプトもいくつか見つけました。Mincemeat、特に項頻度計算を行う例を見てください。

score 1 · Accepted Answer

あなたが求めていることから、完全な検索エンジン (サービス) ではなく、実際には検索ライブラリが必要であると結論付けています。そのライブラリが Lucene です。おそらく、これは初心者に役立つでしょう: How to extract Document Term Vector in Lucene 3.5.0。必要なビットを計算するためにインデックスを RAM に格納してから、インデックスを削除することができます。

solr - SOLR: 生のテキストから用語ベクトル (TermVectorComponent から返されるデータなど) を作成する

4 に答える 4

Related

Reference