0

私は solr と nutch をインストールしました。私の Web ページ構造は、すべてのページでタイトルが同じです。例: 銀行の何か。しかし、すべてのページには、次のような TITLE という ID を持つタグがあります。

<div ID="TITLE"><h1>my page specific title</h1></div>

ページ固有のタイトルと検索語を取得する 2 番目のタイトルのような別のフィールドを solr に追加したい (実際、ページ固有のタイトルはコンテンツ フィールドにあり、これを他のフィールドに入れたい)

これどうやってするの?!

4

1 に答える 1

0

Nutch Pluginをチェックしてください。これにより、Webページから要素を抽出できるようになります。

于 2012-08-26T11:46:11.280 に答える