0

私はnutchとsolrが初めてです。Nutch を使用して Web サイトをクロールし、solr を使用してこれらのページのインデックスを作成しています。solr データベースのリンクのコンテンツを取得する方法はありますか?

例えば

  • http://www.prova.com/prova.htmlにインデックスを付けている場合
  • このページには「これは新しいページです」というテキストが含まれています
  • solrで、どこかに保存されたテキストページはありますか?

ありがとう

ダニーロ

4

1 に答える 1

0

ページのテキストは「content」という名前のフィールドに保存されます。これは生のページではなく、ページの解析済みバージョンであることに注意してください。検索可能なコンテンツはここに表示されますが、メタ タグや JavaScript などは表示されません。

于 2013-10-17T19:11:25.673 に答える