1

私はすでにSql Server 2008ベースのアプリを本番環境に持っており、バイナリを(ファイル拡張子とともに)保存して全文検索を使用しています。つまり、同じ列に doc、xls、pdf、docx などを格納できます。アップロードできるさまざまなファイルがあり、遭遇したくないので、そのアプローチを採用しました (挿入コストがかかることを知っていました)。さまざまな種類のファイル (xls、xlsx、doc、docx、pdf など) からテキストを変換することの狂気。また、私のためにそれを行うことができる無料のツールを知りません。ファイルシステムは安全ではなく、メンテナンスに費用がかかるため、使用したくありません。

現在、mysql への移行のしやすさ (または難しさ) を探しています。mysql で全文検索のオプションをいくつか用意してください。たとえば、MySql 全文検索 (バイナリのインデックスを作成しない)、Sphinx、Solr などがあります。

私が必要としているものに最も近いこの質問を見つけました...Sphinxはバイナリデータにインデックスを付けていないと思いますが...しかし、SphinxSEを使用することで、mysqlテーブルとSphinxにクエリを実行して関連する結果セットを取得できます(同じ接続)。その理解が正しいことを願っています。しかし、パフォーマンスには自信がありません。誰かがさらに洞察を追加できますか?

私が聞いたこと... Lucene を Mysql と統合するのは難しいです。

私の必要性は、構造化 (RDBMS に格納) および非構造化 (索引付けされるテキストデータ) できる基準に基づいてランク付けされた結果を取得することです。

また、私の特定の状況により適していると思われる他のオプションはありますか。

4

1 に答える 1

1

ElasticSearch を見てください (Solr のようにフードの下で lucene を使用します) 必要なことができると思いますが、ドキュメントのインデックス作成は必要ありませんでしたが、試していません。

詳細については、ここを参照してください

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-attachment-type.html

Apache Tika を使用して、ドキュメントをインデックス可能なコンテンツに変換します (SQL サーバーが IFilter プラグインで行うのと同じ)。

于 2013-10-03T14:49:02.677 に答える