ニッチな検索エンジンを作ろうと思っています。クローラーとして apache-nutch-1.6 を使用し、サーチャーとして apache-solr-3.6.2 を使用しています。これらのテクノロジーに関する Web 上の最新情報はほとんどないと言わざるを得ません。
このチュートリアルhttp://wiki.apache.org/nutch/NutchTutorialに従い、ubuntu システムに apache と solr を正常にインストールしました。また、シード URL を webdb に挿入してクロールを実行することにも成功しました。
で solr インターフェイスを使用しhttp://localhost:8983/solr/admin
て、クロールされた結果を照会することもできます。しかし、これは私が受け取る出力です。.
ここで何か不足していますか?以前の apache-nutch-0.7 には、このような明確な html 出力を生成する戦争がありました。. どうすればこれを達成できますか...または、最新のチュートリアルまたはガイドブックを教えていただければ幸いです。