0

不動産検索エンジンの仕様を構築しようとしています 約 500,000 件のリスト 潜在的に 50,000 件のリストの毎日の更新 データはきれいな (ish) CSV で提供されます - 文字を削除し、通常どおり utf をエンコードする必要があります。50 以上のデータ フィールド (30 枚の画像、さまざまなプロパティ仕様など)

Drupal7 に多くの問題があり、Joomla では処理できません。それは単なるデータのインポートです。

Solrにデータのインデックスを付けさせ、検索エンジンとして機能させたいと思っています。いくつかの質問を聞きたいんです。

  1. solr はインデックスから直接リストを提供できますか? (そうであれば、Mysql や CMS などのデータ ストアが必要です)
  2. データを単純な単一テーブルmysql DBに配置し、それを使用してドキュメントをインデックス用にsolrにプッシュし、DBまたはSolrインデックスからリストをロードする方がよいでしょうか。

データの問題により、D7/Joomla/その他の cms の内部動作を理解しようとする多くの複雑さを単純に排除し、いくつかの単純な php ファイルをフロントエンドとして配置することができるようです。

このプロジェクトには基本的な drupal テンプレートを使用するつもりでした。

スピードと信頼性、優れた検索結果が必要です。

4

1 に答える 1

2

私見は、SOLRをあなたの目的専用に使用できるはずです。50000 件のリストの数は、単一のサーバーであっても SOLR にはあまり多くありませんが、約 10 時間あたり 500000 件の更新は確かに多いと思います。1 時間あたり約 50000 の更新があるため、1 時間あたりの完全な再インデックスに相当します。

私たちの企業でも SOLR を使用しており、約 40 ~ 120 のフィールドを使用しています。40000 個のアイテムを完全にインデックス化するには、約 5 分かかります。キャッシュを自動ウォームアップする場合は、おそらくそれに数分追加する必要があります。

私が見る限り、あなたの問題は更新期間が短いことです。1 時間に 1 回すべての 50000 件のリストを更新するのではなく、個々のドキュメントを更新する場合、solr はキャッシュを使用できないか、複数の solr サーバーを使用する必要があります。(おそらく solr 4.0 の場合は、solr サーバー ハードウェアのスケールアップを検討することもできますが、3.x にはそれによる利点があると思います) キャッシュを使用しないと検索パフォーマンスが低下する可能性がありますが、そうする必要はありません。

SOLR は動的フィールド機能を提供するため、ドキュメントごとに異なる構造を追加できます。これは、さまざまなプロパティの要件に一致する必要があります。

于 2012-04-07T07:44:51.740 に答える