デフォルトでは、SOLR は XML ファイルを受け入れます。何百万ものクロールされた URL (html) で検索を実行したいと考えています。
3 に答える
通常、最初のステップとして、SolrJ などを使用して独自のアプリケーションをロールし、インデックス作成を処理することをお勧めします。DataImportHandler を直接使用するのではありません。
アプリケーションを作成して、それらの Web ページのコンテンツを SolrInputDocument のフィールドとして出力するだけです。そのアプリケーションでは HTML を削除することをお勧めします。より細かく制御できるからです。さらに、おそらくそのページ内のデータの一部 ( など) を取得し<title>
て、別のフィールドにインデックス付けする必要があります。別の方法は、フィールドの 1 つでHTMLStripTransformerを使用して、そのフィールドに送信するものから HTML を確実に削除することです。
このすべてのデータをどのようにクロールしていますか? Apache Nutchのようなものを使用している場合、Solr サーバーの接続の詳細をプラグインするだけで、ほとんどの処理が既に行われているはずです。
Solr CEL は HTML を受け入れ、全文検索用にインデックスを作成できます: http://wiki.apache.org/solr/ExtractingRequestHandler
curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F "myfile=@tutorial.html"
ダウンロードしたhtmlファイルをsolrでうまくインデックス化できます。
これは、インデックス作成を行った最速の方法です。
curl http://localhost:8080/solr/update/extract?stream.file=/home/index.html&literal.id=www.google.com
ここstream.file
に、html ファイルのローカル パスとliteral.id
からの URL がありindex.html
ます。