html - どうすればsolrでページ情報を取得できますか?

Question

私はnutchとsolrが初めてです。Nutch を使用して Web サイトをクロールし、solr を使用してこれらのページのインデックスを作成しています。solr データベースのリンクのコンテンツを取得する方法はありますか?

例えば

ありがとう

ダニーロ

score 0 · Accepted Answer

ページのテキストは「content」という名前のフィールドに保存されます。これは生のページではなく、ページの解析済みバージョンであることに注意してください。検索可能なコンテンツはここに表示されますが、メタタグや JavaScript などは表示されません。

1 に答える 1