0

私は Apache Nutch/Solr 製品ファミリを初めて使用します。Solr (4.3) を使用して基本的な Nutch (1.6) をセットアップし、サイトのクロールに成功し、Solr はクロールしたデータにもインデックスを付けました。

ここで私の質問は、ユーザーがコメントを投稿できる場所 (例: http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/ ) のような Web ブログをクロールする場合、どのようにNutch がユーザーのコメントとメイン ブログを別々のドキュメントと見なすようにできますか?キーワードを検索すると、メイン ブログとコメントが別々の結果として返され、後でそのデータをセンチメント分析にも使用できます。

ここで何か助けていただければ幸いです。

ありがとう。トニー

4

1 に答える 1