1

こんにちは私はSolrに関してはナイーブなユーザーです。次のハードルを教えてください。

1)SolrIndexPDFドキュメント

解決策を試しました

tika-app 0.9.jarを使用して、入力PDFファイルからテキストファイルにコンテンツを抽出しました。今、私はドキュメントをSolrにインデックス付けするJavaコードを書き込もうとしています。

2)それらをリモートサーバーに投稿する

ドキュメントまたはインデックスのいずれかを中央のリモートサーバーに投稿する必要があります。これにはcurlコマンドを使用できますか。

バラジよろしく。

4

2 に答える 2

2

1) Solr Index PDF ドキュメント - Solr がこれを行ってくれると思います。 Solr の http インターフェースまたはSolrJを使用できます。2) インデックスをリモート サーバーにポストします。Solr レプリケーションが適している場合があります。

于 2011-06-26T09:11:59.933 に答える
0

PDF が Web サーバー上にあると仮定すると、Nutch を使用してそれらを取得および解析し、HTTP インターフェースを介してインデックスを Solr にプッシュできます。

于 2011-06-30T23:33:18.560 に答える