ユーザーのアクション (Google 検索、クリック、明示的に Web ページを評価することもできます) に基づいてユーザーに Web ページを推奨する推奨システムを構築しようとしています。Google ニュースのやり方を理解するために、特定のトピックに関するウェブのニュース記事を表示します。技術的にはクラスタリングですが、私の目的は似ています。ユーザーのアクションに基づいたコンテンツ ベースのレコメンデーションになります。
だから私の質問は:
- どうすればインターネットをトロールして、関連する Web ページを見つけることができますか?
- そして、ウェブページからデータを抽出するためにどのアルゴリズムを使用すればよいですか?それを行う唯一の方法は、テキスト分析と単語の頻度ですか?
- 最後に、この問題に最適なプラットフォームはどれか。Apache mahout について聞いたことがありますが、再利用可能なアルゴリズムがいくつか付属していますが、ぴったりだと思いますか?