3

デフォルトでは、SOLR は XML ファイルを受け入れます。何百万ものクロールされた URL (html) で検索を実行したいと考えています。

4

3 に答える 3

2

通常、最初のステップとして、SolrJ などを使用して独自のアプリケーションをロールし、インデックス作成を処理することをお勧めします。DataImportHandler を直接使用するのではありません。

アプリケーションを作成して、それらの Web ページのコンテンツを SolrInputDocument のフィールドとして出力するだけです。そのアプリケーションでは HTML を削除することをお勧めします。より細かく制御できるからです。さらに、おそらくそのページ内のデータの一部 ( など) を取得し<title>て、別のフィールドにインデックス付けする必要があります。別の方法は、フィールドの 1 つでHTMLStripTransformerを使用して、そのフィールドに送信するものから HTML を確実に削除することです。

このすべてのデータをどのようにクロールしていますか? Apache Nutchのようなものを使用している場合、Solr サーバーの接続の詳細をプラグインするだけで、ほとんどの処理が既に行われているはずです。

于 2012-11-01T15:41:44.323 に答える
1

Solr CEL は HTML を受け入れ、全文検索用にインデックスを作成できます: http://wiki.apache.org/solr/ExtractingRequestHandler

curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=@tutorial.html"
于 2012-11-02T09:17:56.507 に答える
1

ダウンロードしたhtmlファイルをsolrでうまくインデックス化できます。

これは、インデックス作成を行った最速の方法です。

curl http://localhost:8080/solr/update/extract?stream.file=/home/index.html&literal.id=www.google.com

ここstream.fileに、html ファイルのローカル パスとliteral.idからの URL がありindex.htmlます。

于 2014-06-03T11:49:08.260 に答える