linux - Nutch を使用して flv および epub ファイルの内容を解析できない

Question

私はApache Nutchとsolrを使用しています。私の要件は、flvとepubファイルの内容を解析することです。以下のコマンドを使用してファイルを解析しています

bin/nutch crawl urls -solr http://localhost:8983/solr/

私はnutchのurlsフォルダにファイルのURLを保持しています。上記のコマンドは機能していますが、次のコマンドでsolrを使用して解析されたコンテンツを表示しようとすると、ファイルのURLが表示されるだけです。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

私に提案してください....

ありがとう

score 0 · Accepted Answer

2 番目のコマンドは、クロールされたコンテンツを SOLR インデックスに挿入します。

クロールされたコンテンツを取得するには、SOLR で検索を実行する必要があります。次のようなもの：

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

schema.xml の "content" フィールドを stored="true" に変更し、再クロールして再インデックスし、SOLR 検索の結果を投稿できますか?

1 に答える 1