0

ドキュメントを検索しましたが、すべてのデータが保存されている場所が見つかりません。独自の処理を行うために、クロールされたすべてのデータにアクセスしたいと考えています。

4

2 に答える 2

0

デフォルトでは、クロールされたデータは保存されません。抽出されたテキストのみが保存されます。クロールされたデータを保存することは可能です。プロセスは次のとおりです。

  1. 新しいフィールドを作成します。「保存」パラメーターを yes または圧縮に設定します。
  2. スキーマ/パーサー リストに移動します
  3. HTML パーサーを編集する
  4. 「フィールド マッピング」タブで、パーサー フィールド「htmlSource」を新しいフィールドにリンクします。

インデックス作成プロセスを再開します。これで、クロールされたすべてのデータがこのフィールドにコピーされます。クエリで返されるフィールドとして追加することを忘れないでください。

于 2012-09-16T18:17:52.467 に答える
0

ファイルStartStopListenerで、インデックス ディレクトリを設定します。環境値OPENSEARCHSERVER_DATAOPENSEARCHSERVER_MULTIDATA、またはOPENSHIFT_DATA_DIRの値を探します。

さて、ファイルを簡単に/正しく解析できるかどうかは別の議論です.検索サーバーのインデックスを手動で直接開こうとしたことはありません.インデックス形式が十分に文書化されているかどうかもわかりません.

于 2012-09-16T17:30:01.073 に答える