html - HTML ファイルを Apache SOLR にインデックス化するにはどうすればよいですか?

Question

デフォルトでは、SOLR は XML ファイルを受け入れます。何百万ものクロールされた URL (html) で検索を実行したいと考えています。

score 2 · Accepted Answer

通常、最初のステップとして、SolrJ などを使用して独自のアプリケーションをロールし、インデックス作成を処理することをお勧めします。DataImportHandler を直接使用するのではありません。

アプリケーションを作成して、それらの Web ページのコンテンツを SolrInputDocument のフィールドとして出力するだけです。そのアプリケーションでは HTML を削除することをお勧めします。より細かく制御できるからです。さらに、おそらくそのページ内のデータの一部 ( など) を取得し<title>て、別のフィールドにインデックス付けする必要があります。別の方法は、フィールドの 1 つでHTMLStripTransformerを使用して、そのフィールドに送信するものから HTML を確実に削除することです。

このすべてのデータをどのようにクロールしていますか? Apache Nutchのようなものを使用している場合、Solr サーバーの接続の詳細をプラグインするだけで、ほとんどの処理が既に行われているはずです。

score 1 · Accepted Answer

Solr CEL は HTML を受け入れ、全文検索用にインデックスを作成できます: http://wiki.apache.org/solr/ExtractingRequestHandler

curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=@tutorial.html"

score 1 · Accepted Answer

ダウンロードしたhtmlファイルをsolrでうまくインデックス化できます。

これは、インデックス作成を行った最速の方法です。

curl http://localhost:8080/solr/update/extract?stream.file=/home/index.html&literal.id=www.google.com

ここstream.fileに、html ファイルのローカルパスとliteral.idからの URL がありindex.htmlます。

html - HTML ファイルを Apache SOLR にインデックス化するにはどうすればよいですか?

3 に答える 3

Related

Reference